Por Canuto  

Una investigación liderada por DeepSeek plantea que los grandes modelos de lenguaje están desperdiciando demasiada computación al intentar reconstruir conocimiento estático dentro del Transformer. Su respuesta es Engram, un módulo de memoria condicional que combina búsquedas O(1) con arquitectura MoE, y que en pruebas internas mostró mejoras en conocimiento, razonamiento, programación, matemáticas y tareas de contexto largo.
***

  • El trabajo propone “memoria condicional” como un nuevo eje de dispersión para modelos de lenguaje, complementario al cómputo condicional de los sistemas MoE.
  • DeepSeek afirma que Engram, escalado hasta 27.000 millones de parámetros, superó a una línea base MoE equivalente en parámetros y FLOPs.
  • Los autores reportan ganancias en MMLU, BBH, HumanEval, MATH y recuperación en contexto largo, con sobrecosto mínimo al descargar memoria al host.


Los modelos de lenguaje de gran escala podrían estar resolviendo de forma ineficiente una parte importante del problema que enfrentan al procesar texto. Esa es la premisa central de Conditional Memory via Scalable Lookup: A New Axis of Sparsity for Large Language Models, trabajo firmado por Xin Cheng, Wangding Zeng, Damai Dai, Qinyu Chen, Bingxuan Wang, Zhenda Xie, Kezhao Huang, Xingkai Yu, Zhewen Hao, Yukun Li, Han Zhang, Huishuai Zhang, Dongyan Zhao y Wenfeng Liang.

La investigación sostiene que, aunque los sistemas Mixture-of-Experts o MoE ya escalan la capacidad mediante cómputo condicional, los Transformers aún carecen de una primitive nativa para recuperar conocimiento de forma directa. Como resultado, terminan simulando la recuperación a través de capas de atención y redes feed-forward, incluso cuando el patrón lingüístico es local, repetitivo y esencialmente estático.

Para corregir esa ineficiencia, los autores proponen un nuevo eje de dispersión llamado memoria condicional. Su implementación concreta recibe el nombre de Engram, un módulo que moderniza la idea clásica de embeddings de N-gramas y la lleva a búsquedas determinísticas de tiempo constante, O(1), con el objetivo de recuperar patrones fijos sin consumir profundidad de red en tareas triviales.

La idea puede sonar técnica, pero tiene una implicación clara para quienes siguen el avance de la inteligencia artificial. Si un modelo puede delegar el reconocimiento de entidades, fórmulas o expresiones muy frecuentes a una memoria estática bien diseñada, entonces libera capacidad computacional para razonamiento más complejo, mejor uso de la atención y procesamiento de contextos largos.

Qué problema busca resolver Engram

El trabajo divide implícitamente el modelado del lenguaje en dos subproblemas. El primero es el razonamiento composicional, donde el sistema debe combinar contexto, lógica y relaciones dinámicas. El segundo es la recuperación de conocimiento, que abarca nombres propios, frases formulaicas y dependencias locales que suelen repetirse con alta regularidad.

Según los autores, los Transformers actuales no distinguen bien entre ambas cargas. En vez de tener un mecanismo específico para “consultar” conocimiento estático, emplean varias capas tempranas para reconstruirlo token a token. Esa reconstrucción consume profundidad secuencial que podría destinarse a tareas más exigentes, como razonamiento general, resolución de problemas matemáticos o programación.

Engram intenta separar ambos mundos. En la fase de recuperación, toma N-gramas de sufijo del texto de entrada, comprime el vocabulario para unificar variantes equivalentes y utiliza hashing determinístico de múltiples cabezas para buscar embeddings estáticos en tablas masivas. Luego fusiona esa memoria con el estado oculto actual mediante un mecanismo de compuerta contextual.

Esa compuerta sirve como filtro semántico. Si la memoria recuperada coincide con el contexto agregado por el modelo, su señal pasa. Si contradice el contexto o sufre ruido por colisiones del hash o polisemia, la compuerta la atenúa. Después, una convolución causal corta refina la salida antes de inyectarla como conexión residual en capas específicas del backbone.

Un detalle importante es que Engram no se coloca en todas las capas. Su ubicación responde a un equilibrio entre rendimiento y latencia. Colocarlo temprano ayuda a descargar reconstrucción local desde las primeras capas, pero también exige que el estado oculto tenga contexto suficiente para activar bien la compuerta. Esa tensión aparece una y otra vez en el estudio.

La ley de escalado que propone la investigación

Uno de los aportes centrales del trabajo es la formulación del problema de “asignación de dispersión”. Dado un presupuesto fijo de parámetros totales y de parámetros activados por token, ¿qué fracción de la capacidad escasa debe destinarse a expertos MoE y cuál a memoria Engram?

Para responderlo, los investigadores definieron una razón de asignación ρ, donde ρ = 1 representa un modelo puramente MoE y valores menores indican que parte del presupuesto de parámetros inactivos se reasigna a la memoria. Bajo dos regímenes de cómputo, ambos con razón de dispersión cercana a 10, evaluaron cómo cambia la pérdida de validación.

El resultado fue una curva en U. En ambos regímenes, el mejor desempeño no apareció en el extremo puramente MoE ni en el extremo dominado por memoria, sino en un punto intermedio. El óptimo se ubicó de forma estable cerca de ρ ≈ 75% a 80%, lo que implica reasignar cerca de 20% a 25% del presupuesto escaso hacia Engram.

En el régimen de alrededor de 10.000 millones de parámetros, la pérdida de validación mejoró desde 1,7248 en el baseline puro MoE hasta 1,7109 cerca del punto óptimo. Para los autores, esa forma en U confirma que cómputo condicional y memoria condicional son complementarios. Demasiado MoE obliga a reconstruir conocimiento estático con cómputo. Demasiada memoria reduce la capacidad de razonamiento dinámico.

El estudio también exploró un “régimen de memoria infinita”, donde el backbone MoE se mantiene fijo y se expande agresivamente la tabla de embeddings de Engram. Allí, la pérdida de validación siguió una tendencia log-lineal respecto al número de slots, lo que sugiere que la memoria se comporta como una perilla escalable y predecible sin elevar el costo computacional por token.

Resultados en preentrenamiento: conocimiento, razonamiento, código y matemáticas

Guiados por esa ley de asignación, los autores escalaron Engram hasta un modelo de 27.000 millones de parámetros. En la comparación principal entrenaron cuatro variantes durante 262.000 millones de tokens: Dense-4B, MoE-27B, Engram-27B y Engram-40B. Todas quedaron alineadas en parámetros activados, con 3.800 millones, para mantener la comparación de FLOPs bajo control.

Engram-27B fue construido a partir de MoE-27B. Para ello, se redujo el número de expertos enroutados de 72 a 55, y los parámetros liberados se reasignaron a una memoria Engram de 5.700 millones. Así, ambos modelos quedaron igualados en tamaño total, con 26.700 millones de parámetros, pero con una distribución interna distinta.

En modelado de lenguaje, Engram-27B obtuvo una pérdida de 1,950 en The Pile, frente a 1,960 de MoE-27B y 2,091 del modelo denso. En el conjunto de validación interno, Engram-27B marcó 1,622, mejor que 1,634 del baseline MoE. Engram-40B, con 18.500 millones de parámetros en memoria, bajó aún más a 1,610.

Las mejoras también aparecieron en pruebas de conocimiento y razonamiento. En MMLU, Engram-27B alcanzó 60,4 frente a 57,4 de MoE-27B. En CMMLU avanzó de 57,9 a 61,9. En MMLU-Pro pasó de 28,3 a 30,1. En ARC-Challenge mejoró de 70,1 a 73,8, mientras que en BBH subió de 50,9 a 55,9 y en DROP avanzó de 55,7 a 59,0.

En código y matemáticas, los autores también reportaron avances. HumanEval pasó de 37,8 a 40,8. MBPP subió de 46,6 a 48,2. GSM8K mejoró de 58,4 a 60,6. MATH se movió de 28,3 a 30,7. Aunque el módulo de memoria parecía diseñado sobre todo para recuperación de conocimiento, la investigación afirma que el efecto más llamativo apareció en razonamiento general y dominios algorítmicos.

Engram-40B, por su parte, superó a Engram-27B en muchos indicadores, aunque no en todos. Los autores atribuyen esas excepciones a un posible subentrenamiento, ya que la brecha de pérdida seguía ampliándose al final del entrenamiento y sugieren que el presupuesto de tokens aún no saturaba la memoria adicional.

Por qué el trabajo dice que Engram “profundiza” al modelo

Una de las partes más interesantes del estudio está en el análisis mecanicista. Con herramientas como LogitLens y CKA, los investigadores intentaron responder si Engram actúa como una especie de atajo funcional que vuelve al modelo “más profundo” sin agregar más bloques de Transformer.

Con LogitLens midieron la divergencia KL entre la salida final del modelo y las predicciones que ya se podían inferir desde capas intermedias. El resultado mostró que las variantes con Engram alcanzaban estados “listos para predecir” más rápido, sobre todo en las capas tempranas. En otras palabras, la composición de rasgos necesarios para ciertas respuestas convergía antes.

Luego emplearon CKA para comparar la similitud entre representaciones internas de Engram y las del baseline MoE. Allí observaron un desplazamiento sistemático por encima de la diagonal en los mapas de similitud. Un ejemplo citado en el paper indica que la capa 5 de Engram-27B se alineaba mejor con algo cercano a la capa 12 del modelo MoE.

La interpretación de fondo es directa. Si el backbone deja de gastar varias capas en resolver entidades o patrones locales, entonces esas capas quedan disponibles para razonamiento de mayor nivel. El trabajo usa como ejemplo la resolución progresiva de “Diana, Princess of Wales”, que en modelos tradicionales requiere varias capas para ensamblar contexto hasta llegar a la entidad correcta.

El análisis de sensibilidad refuerza esa lectura. Cuando los autores suprimieron la salida de Engram durante inferencia, los benchmarks de conocimiento factual sufrieron una caída severa y retuvieron apenas entre 29% y 44% del rendimiento base, con TriviaQA en 29%. En cambio, tareas de comprensión lectora conservaron entre 81% y 93%, lo que sugiere que el backbone sigue absorbiendo la parte contextual.

Ventajas en contexto largo y eficiencia de infraestructura

El trabajo también dedica una sección importante al entrenamiento en contexto largo. Tras extender la ventana hasta 32.768 tokens, Engram-27B superó al baseline MoE en LongPPL y en RULER bajo distintos escenarios de comparación. En el ajuste de igual pérdida de preentrenamiento, por ejemplo, logró 97,0 frente a 84,2 en Multi-Query NIAH y 87,2 frente a 77,0 en Variable Tracking.

Cuando se comparó bajo igual presupuesto de cómputo, Engram-27B amplió aún más la ventaja. En la versión de 50.000 pasos, registró 97,0 en Multi-Query NIAH y 89,0 en Variable Tracking, frente a 84,2 y 77,0 del baseline MoE-27B. Incluso una versión detenida antes, con 41.000 pasos, pudo igualar la LongPPL del baseline y superarlo en RULER.

Desde el punto de vista de sistemas, el argumento de DeepSeek es que Engram tiene una ventaja clave sobre el MoE tradicional. Como sus índices de acceso dependen solo de la secuencia de tokens y no del estado oculto calculado en tiempo real, la recuperación de memoria es determinística. Eso permite precargar embeddings desde memoria del host y solapar la comunicación con el cómputo.

En una prueba de inferencia con un backbone denso y una capa Engram de 100.000 millones de parámetros almacenada en DRAM del host, el sobrecosto de rendimiento fue mínimo. En el modelo 4B-Dense, el throughput bajó de 9.031,62 a 8.858,28 tokens por segundo. En el 8B-Dense, pasó de 6.315,52 a 6.140,02. El pico de penalización fue menor a 3%.

Para lectores que siguen infraestructura de IA, ese detalle no es menor. El trabajo sugiere que el crecimiento de memoria puede desacoplarse del límite físico de la HBM en GPU. Si esa tesis se sostiene en implementaciones más maduras, la próxima frontera de escala no dependería solo de más cómputo o más expertos, sino también de memorias paramétricas externas bien orquestadas.

En conjunto, la investigación presenta a Engram como una primitive complementaria al MoE y no como un reemplazo total. La apuesta de fondo es que la próxima generación de modelos dispersos deberá combinar cómputo condicional para lógica dinámica y memoria condicional para patrones estáticos. Si esa mezcla demuestra robustez fuera de laboratorio, podría reordenar parte del debate actual sobre cómo escalar la IA de forma eficiente.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín