Por Canuto  

Un análisis ampliamente comentado plantea que DeepSeek no estaría enfocada en monetizar aplicaciones inmediatas, sino en habilitar un ecosistema chino de hardware de IA valorado en USD $10 billones mediante eficiencia, código abierto y acuerdos estratégicos.
***

  • DeepSeek habría priorizado innovaciones como MoE, MLA, DSA, Engram y mHC para reducir costos de memoria y cómputo.
  • El análisis sostiene que estas tecnologías favorecen a fabricantes chinos de NAND, LPDDR, ASIC, GPU y redes.
  • El autor compara la posible estrategia de DeepSeek con acuerdos de OpenAI con AMD y Cerebras basados en warrants y consumo futuro.


DeepSeek podría estar jugando una partida mucho más grande que vender suscripciones de programación o lanzar modelos multimodales al ritmo de sus rivales. Un análisis publicado por @bookwormengr sostiene que la empresa china de inteligencia artificial estaría construyendo una estrategia industrial de largo plazo.

La tesis central es ambiciosa. DeepSeek buscaría habilitar un ecosistema chino de hardware de IA valorado en USD $10 billones y, al mismo tiempo, alcanzar una valoración propia de USD $1 billón. No se trata de una afirmación oficial de la compañía, sino de una lectura estratégica basada en sus decisiones técnicas recientes.

El planteamiento parte de una pregunta incómoda para el mercado. ¿Cómo puede ganar dinero DeepSeek si no compite de forma agresiva con planes comerciales de programación como GLM, MoonShot o MiniMax? Además, la empresa aún no ha presentado modelos multimodales, de audio o de video, y apenas habría comenzado a contratar para construir un harness.

La respuesta propuesta por el analista no mira al producto final, sino a la infraestructura. DeepSeek estaría reduciendo los requisitos de memoria y cómputo para que más hardware, especialmente hardware chino, pueda entrenar y servir modelos avanzados de IA.

Una estrategia que empieza en la eficiencia

DeepSeek se ha distinguido por ir contra la corriente. Mientras otros laboratorios buscan mejoras incrementales y monetización inmediata, la empresa apostó por arquitectura, algoritmos y eficiencia operativa. Esa trayectoria incluye el uso intensivo de modelos Mixture of Expert, conocidos como MoE, cuando otros seguían concentrados en modelos densos.

El análisis atribuye a DeepSeek una serie de innovaciones que ya influyen en la industria. Entre ellas figuran GRPO como alternativa más barata a PPO para reinforcement learning, RLVR para mejorar razonamiento con recompensas verificadas y Multi Token Prediction como estrategia de speculative decoding.

También menciona pipelines “ZERO bubble” para mejorar el uso de GPU limitadas, balanceadores de carga para expertos y la estrategia “Wide Expert Parallel”. Esta última permitiría servir modelos MoE con lotes grandes y costos más bajos.

El punto técnico más relevante está en la memoria. DeepSeek desarrolló MLA, DSA, CSA y HCA para reducir la necesidad de KV Cache y mantener más estable la demanda de cómputo a medida que crece el contexto. En aplicaciones de agentes de largo horizonte, esa diferencia puede ser decisiva.

KV Cache, HBM y el rol de la memoria barata

El KV Cache almacena información intermedia que los modelos necesitan para generar respuestas largas sin recalcular todo desde cero. En modelos de IA con contextos muy amplios, este componente puede consumir enormes cantidades de HBM, una memoria rápida, cara y escasa.

El análisis cita una comparación para un contexto de 1 millón de tokens, con precisión KV de 8 bits y precisión de indexador de 16 bits. Bajo esos supuestos, DeepSeek V4 necesitaría solo 5,48 GB de HBM, frente a 60 GB de HBM para GLM5 y cerca de 89 GB para Qwen3-235B-A22B.

La diferencia resulta más llamativa porque DeepSeek V4 sería un modelo de 1,6 billones de parámetros. GLM5 rondaría los 700.000 millones de parámetros y ya usaría MLA y DSA de DeepSeek. Qwen3-235B-A22B tendría cerca de 235.000 millones de parámetros y usaría atención GQA.

Esta compresión permitiría mantener cachés durante más tiempo a bajo costo. El autor afirma que DeepSeek puede ofrecer cache mantenida durante varias horas por menos del 3% del precio de los cache hits de Sonnet 4.6. Esa economía abriría la puerta a agentes capaces de trabajar en tareas extensas sin disparar el gasto.

La tesis industrial aparece aquí con claridad. Si el KV Cache se vuelve pequeño, puede descargarse y recargarse desde SSD de manera rentable. Eso reduce presión sobre HBM y crea demanda para NAND, un segmento donde YMTC emerge como un actor chino relevante.

LPDDR, Engram y el intercambio entre memoria y cómputo

La estrategia no se limita a NAND o SSD. La memoria LPDDR también podría jugar un papel clave, ya que puede alojar pesos y transmitirlos hacia HBM cuando resulte necesario. El equipo de SGLang ha descrito esquemas de este tipo, y la arquitectura MoE de DeepSeek facilita su implementación.

Los modelos MoE con muchos expertos y pesos de 4 bits pueden adaptarse a ese enfoque. La memoria LPDDR actuaría como un depósito más barato, mientras HBM se reserva para operaciones críticas. Esto reduce otra vez el cuello de botella más difícil para la industria china de hardware de IA.

El análisis apunta a CXMT como fabricante chino de LPDDR. Según la publicación, la compañía estaría solo 0,5 generaciones por detrás en velocidad y una generación por detrás en densidad. Si China logra abundancia en NAND y LPDDR, podría compensar parte de su desventaja en HBM y FLOPs brutos.

Engram completa esa visión. DeepSeek presentó este módulo como una forma de recuperar conocimiento mediante búsqueda hash O(1), en vez de obligar al Transformer a simular recuperación con cómputo costoso. La técnica introduce una “memoria condicional” que cambia memoria por cómputo.

Ese intercambio favorece a un ecosistema que pueda producir mucha memoria barata. Una búsqueda en LPDDR puede costar mucho menos que un forward pass completo por capas Transformer. Para chips chinos, limitados por la falta de EUV y rezagos en empaquetado, este diseño puede convertir una restricción en ventaja.

De la investigación abierta a una posible industria de USD $10 billones

DeepSeek ha mantenido una fuerte orientación hacia el código abierto. Para algunos inversionistas, compartir recetas técnicas podría parecer una forma de regalar valor. Para el autor del análisis, ocurre lo contrario: abrir tecnología puede acelerar la adopción de un ecosistema completo.

La publicación describe una línea de innovaciones que empieza con DeepSeek V2 en mayo de 2024. Allí se habrían introducido MoE y MLA. MoE habría permitido entrenar modelos inteligentes con 40% a 50% menos cómputo, mientras MLA habría reducido el KV Cache en 90%.

Luego aparece DeepSeek V3.2 Exp con DSA, una técnica para reducir cómputo en contexto largo y aliviar el ancho de banda de HBM. Según el análisis, el tiempo de procesamiento de DeepSeek-v3.2 se mantiene plano conforme crece el contexto.

La lista sigue con mHC, descrito en diciembre de 2025 en el paper “mHC: Manifold-Constrained Hyper-Connections”. Esta macroarquitectura cambia el flujo de información entre capas Transformer mediante múltiples autopistas residuales y matrices doblemente estocásticas. El objetivo es preservar la magnitud de señal en profundidades arbitrarias.

El autor atribuye a mHC mejoras de +7,2 puntos en BIG-Bench Hard, +3,2 en DROP, +2,8 en GSM8K y +1,4 en MMLU, con 27.000 millones de parámetros y una sobrecarga de entrenamiento de 6,7% en wall-clock. En abril de 2026, DeepSeek V4 habría sumado CSA y HSA para reducir otra vez la necesidad de KV en 90%.

TileLang, CUDA y el tablero geopolítico de la IA

La apuesta por TileLang también encaja en esta lectura. Con TileLang, un desarrollador podría escribir kernels una vez y ejecutarlos en múltiples plataformas de hardware, siempre que exista backend disponible. Esto podría debilitar el foso de CUDA, uno de los mayores activos de Nvidia.

El análisis menciona que varios fabricantes chinos ofrecen compatibilidad CUDA o capas de traducción. Entre ellos figuran Moore Threads, MetaX, Biren e Iluvatar CoreX. Aun así, una capa como TileLang podría facilitar que nuevos chips compitan sin depender por completo del ecosistema CUDA.

El impacto no quedaría limitado a China. Las innovaciones de DeepSeek también podrían beneficiar al código abierto occidental y a fabricantes alternativos, como AMD. De hecho, el autor recuerda que GLM, Kimi y otros laboratorios ya han adoptado ideas como MLA y DSA.

Kimi, de Moonshot, habría basado parte de su arquitectura en DeepSeek, mientras DeepSeek adoptó el optimizador Muon. Ese optimizador, MomentUm Orthogonalized by Newton-Schulz, fue creado por Keller Jordan a finales de 2024 y usado primero a gran escala por el equipo de Kimi.

El análisis también atribuye la invención original de MoE a Google en 2027, con Noam Shazeer como autor clave. En cualquier caso, la tesis no se centra en quién inventó cada pieza, sino en cómo DeepSeek las escala y adapta a restricciones de hardware concretas.

El modelo de negocio: warrants, equity y consumo futuro

La pregunta financiera sigue abierta. Si DeepSeek no monetiza de inmediato como una empresa tradicional de software, ¿dónde capturaría valor? La comparación propuesta apunta a OpenAI y sus acuerdos con AMD y Cerebras.

OpenAI recibió warrants u opciones para comprar acciones de AMD y Cerebras a bajo precio, ligados a hitos de consumo. En el caso de AMD, el acuerdo incluyó un warrant por hasta 160 millones de acciones ordinarias, con vesting asociado al despliegue inicial de 1 gigavatio y tramos adicionales hasta 6 gigavatios.

El vesting también depende de objetivos de precio de la acción de AMD y de hitos técnicos y comerciales de OpenAI. Ese tipo de acuerdo alinea incentivos entre el comprador de cómputo y el fabricante de hardware. Si el proveedor crece, el laboratorio de IA captura parte de esa valorización.

El autor pronostica que DeepSeek podría replicar esa lógica con fabricantes chinos de memoria, ASIC, CPU y redes. La empresa aportaría cargas de trabajo, optimización y validación técnica. A cambio, podría recibir participación económica en compañías que se beneficien de su arquitectura.

Esta hipótesis explicaría por qué DeepSeek prioriza eficiencia, portabilidad y apertura. Si su software vuelve viable a muchos proveedores de hardware, el valor no surge solo del chatbot. Surge de convertir una cadena de suministro completa en infraestructura competitiva para IA.

RL, RSI y el camino hacia sistemas más ambiciosos

El análisis también conecta la eficiencia con el entrenamiento futuro. El reinforcement learning a gran escala exige generar enormes cantidades de trayectorias, incluso billones de tokens. Ese costo crece aún más si los modelos deben aprender con contextos de 1 millón de tokens.

Reducir el costo de memoria y cómputo permitiría entrenar agentes de horizonte largo. Estos sistemas podrían ejecutar tareas prolongadas, mantener contexto durante horas y usar cachés persistentes sin depender exclusivamente de HBM.

La publicación introduce además RSI, sigla de investigación automatizada. En ese escenario, la IA diseña y ejecuta experimentos por sí misma. El proceso implica muchos intentos fallidos, por lo que puede consumir grandes recursos de cómputo.

Para el autor, DeepSeek necesitaría dominar RSI antes de acercarse a AGI y luego ASI. Esa parte del argumento entra en un terreno especulativo, pero refleja una prioridad clara: quien reduzca el costo de experimentar tendrá ventaja en la carrera por modelos más capaces.

Liang Wenfeng, CEO de DeepSeek y descrito como admirador de Jim Simons, aparece en el análisis como un estratega paciente. La idea final es que la compañía podría ganar más creando una industria que vendiendo solo aplicaciones. Si esa lectura acierta, DeepSeek no estaría regalando su receta, sino sembrando el mercado donde planea capturar valor.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín