Una tesis difundida por el ingeniero conocido como @bookwormengr plantea que DeepSeek no estaría persiguiendo solo ingresos por aplicaciones de IA, sino una meta mucho más amplia: abaratar la computación, reducir la dependencia de memoria costosa y ayudar a levantar un ecosistema alternativo de hardware capaz de mover billones de dólares.
***
- La tesis sostiene que DeepSeek prioriza innovaciones como MoE, MLA, DSA y Engram para reducir costos de memoria y cómputo.
- El planteamiento vincula esas mejoras con una posible expansión de fabricantes de SSD, LPDDR, ASICs y redes, especialmente en China.
- Según el análisis, el objetivo final no sería vender simples planes de uso, sino abrir el camino hacia AGI y una industria valuada en USD $10 billones.
La conversación sobre DeepSeek suele centrarse en su rivalidad con OpenAI y en la carrera global por construir sistemas de inteligencia artificial cada vez más capaces. Sin embargo, una interpretación reciente propone una lectura mucho más ambiciosa: DeepSeek no estaría enfocada únicamente en monetizar modelos o asistentes, sino en rediseñar la economía del hardware que sostiene a la IA moderna.
Esa tesis fue desarrollada por @bookwormengr, quien argumenta que la empresa ha seguido una ruta poco convencional. En vez de priorizar productos comerciales inmediatos, como planes de programación o suites multimodales completas, DeepSeek habría apostado por resolver cuellos de botella estructurales en memoria, inferencia y entrenamiento.
El análisis parte de una pregunta simple: ¿cómo podría DeepSeek ganar mucho dinero si, hasta ahora, no ha replicado varias de las líneas de negocio que sí persiguen otros laboratorios? La respuesta propuesta es que la compañía estaría jugando un horizonte mucho más largo, orientado a facilitar un ecosistema de hardware de IA a gran escala y, con ello, capturar valor de una industria entera.
La idea no proviene de un comunicado oficial de DeepSeek, sino de una lectura estratégica de sus publicaciones técnicas, decisiones arquitectónicas y prioridades de investigación. Aun así, ofrece una ventana útil para entender por qué la firma ha insistido en código abierto, eficiencia y reducción agresiva de costos de cómputo.
Una estrategia centrada en memoria, no solo en modelos
Uno de los ejes del argumento es la gestión del KV cache, una pieza crítica para modelos de lenguaje que trabajan con contextos extensos. Según el autor, para un contexto de 1 millón de tokens y asumiendo precisión de 8 bits para KV y 16 bits para el indexador, DeepSeek V4 requeriría apenas 5,48 GB de HBM, frente a 60 GB de GLM5 y cerca de 89 GB de Qwen3-235B-A22B.
La comparación es relevante porque la HBM, o memoria de gran ancho de banda, es uno de los componentes más escasos y costosos del stack moderno de IA. Si un modelo puede mantener calidad mientras reduce de forma drástica su demanda de HBM, no solo abarata inferencia y entrenamiento, sino que también abre la puerta a otros tipos de infraestructura.
En esa lectura, DeepSeek habría realizado una contribución fundacional para aliviar la presión sobre la memoria mediante técnicas como MLA, DSA, CSA y HSA. El beneficio no sería menor. Un KV cache más pequeño puede mantenerse por más tiempo, descargarse a SSD con mejor economía y volver a cargarse de forma rentable para tareas de horizonte largo.
El planteamiento también conecta estas mejoras con proveedores de almacenamiento. Si parte del trabajo antes reservado a HBM puede desplazarse a SSD y NAND, eso amplía el mercado para fabricantes de memoria flash. El análisis cita además el potencial de LPDDR como espacio para conservar pesos y transmitirlos a HBM cuando se necesiten, reduciendo aún más el cuello de botella.
MoE, Engram y el intercambio entre memoria y cómputo
Otro componente central de la tesis es el enfoque de DeepSeek sobre modelos Mixture of Experts, o MoE. Según el repaso planteado, esta arquitectura permitió entrenar modelos muy potentes con entre 40% y 50% menos cómputo. Eso ya representaba una ventaja importante en un contexto de restricciones de GPU.
La estrategia no se habría quedado allí. El texto atribuye a DeepSeek avances como GRPO para reinforcement learning, RLVR para mejorar razonamiento, speculative decoding mediante multi token prediction, pipelines de “zero bubble”, expert load balancer y esquemas de paralelismo que facilitarían servir modelos MoE de forma más económica.
Dentro de esa lista, Engram ocupa un lugar especial. El análisis lo describe como un mecanismo que intercambia memoria por cómputo mediante una búsqueda basada en hash de complejidad O(1), lo que actuaría como una forma de “memoria condicional”. En términos prácticos, la idea es sustituir parte del trabajo intensivo de transformer por consultas a memoria más baratas.
Ese tipo de compensación sería particularmente valioso para un ecosistema que no puede igualar de inmediato los FLOPs brutos ni el empaquetado avanzado de los mejores chips occidentales. Si el hardware disponible es relativamente más débil, pero la memoria es más accesible, entonces la optimización algorítmica puede compensar parte de la brecha.
La tesis también menciona mHC, presentado como una innovación de macroarquitectura que reorganiza el flujo de información entre capas transformer. Según el texto, este enfoque añadiría apenas 6,7% de sobrecosto de entrenamiento en tiempo real, mientras mejora métricas de razonamiento, matemáticas y conocimiento general en un modelo de 27.000 millones de parámetros.
Más que ingresos inmediatos, una tesis industrial
Con ese telón de fondo, la lectura estratégica propone que DeepSeek no está persiguiendo solo unos cientos de millones en ingresos directos por aplicaciones. En cambio, su objetivo sería favorecer la aparición de un ecosistema alternativo de hardware para IA, con espacio para fabricantes de memoria, chips, redes y herramientas de software.
El análisis menciona además a TileLang como una inversión coherente con esa visión. La promesa allí sería facilitar el desarrollo de kernels que puedan ejecutarse en múltiples plataformas de hardware, reduciendo dependencia de entornos dominantes y ayudando a que nuevos fabricantes se vuelvan competitivos para cargas de trabajo avanzadas.
Esa parte de la tesis tiene una dimensión geopolítica evidente. Si DeepSeek puede contribuir a que más opciones de hardware sean viables para IA de frontera, no solo ampliaría su propia capacidad de entrenamiento e inferencia, sino que también aliviaría la concentración del poder computacional en unos pocos proveedores globales.
El autor sugiere que esto beneficiaría tanto al ecosistema chino como al open source occidental. Su argumento es que innovaciones en compresión de KV cache, eficiencia de contexto largo y portabilidad de kernels pueden ser adoptadas por otros laboratorios y fabricantes, haciendo más abierto el mapa competitivo de la IA.
La relación con AGI y con OpenAI
La historia original de Memeburn apuntaba a una nueva fase en la carrera por la AGI entre DeepSeek y OpenAI, pero el desarrollo presentado aquí desplaza el foco desde el enfrentamiento comercial inmediato hacia la infraestructura subyacente. La premisa es clara: llegar a AGI exigirá muchísimo más cómputo, más experimentación y ciclos más baratos de entrenamiento.
En ese punto aparecen reinforcement learning a gran escala y RSI, o investigación automatizada. El análisis sostiene que ambos enfoques pueden consumir cantidades enormes de tokens y pruebas, especialmente cuando se trabaja con contextos de 1 millón de tokens. Por eso, reducir costos de memoria y abrir más opciones de hardware sería una condición práctica para sostener esa carrera.
También se plantea que DeepSeek podría replicar fórmulas similares a las vistas en acuerdos de OpenAI con compañías de hardware. En ese tipo de esquemas, un laboratorio alinea incentivos estratégicos mediante warrants, opciones o participaciones atadas al despliegue y al consumo de infraestructura.
A partir de allí, la tesis lanza su proyección más audaz. DeepSeek podría ayudar a crear una industria de IA valorada en USD $10 billones y, dentro de ese proceso, aspirar a una valoración de USD $1 billón para sí misma. Se trata, por ahora, de una interpretación especulativa, no de una hoja de ruta confirmada por la empresa.
Con todo, la hipótesis gana fuerza por una razón simple. Muchas de las innovaciones asociadas a DeepSeek ya habrían sido adoptadas por otros actores, entre ellos laboratorios vinculados a GLM y Kimi. Si lo que hace hoy DeepSeek termina convirtiéndose mañana en estándar de la industria, entonces su influencia podría extenderse mucho más allá de sus propios modelos.
En un mercado donde la IA suele medirse por chatbots, suscripciones o benchmarks, esta lectura propone mirar más abajo, hacia la capa que realmente define quién puede competir. Si DeepSeek logra abaratar memoria, reducir la dependencia de HBM y ampliar la base de hardware útil para IA, su verdadera apuesta podría no ser vender una aplicación, sino reescribir la infraestructura del sector.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Empresas
Meta, Google y Amazon buscaron influir en el Vaticano antes de la encíclica IA del Papa León XIV
IA
Los ejecutivos ya están creando clones IA para asistir a reuniones y trabajar por ellos
Bancos y Pagos
BCE cita a bancos por riesgos cibernéticos de IA y presión de Mythos
Empresas