Un equipo de investigadores presentó NextMem, una arquitectura de memoria latente para agentes basados en modelos de lenguaje que busca resolver un cuello de botella central de la IA moderna: cómo conservar hechos con precisión sin disparar el costo de contexto ni caer en olvido catastrófico.
***
- NextMem usa un autoencoder autorregresivo para convertir texto en memoria latente y reconstruirlo con alta fidelidad.
- El estudio reporta ventajas frente a ICAE, DeepSeek-OCR y DyPRAG en reconstrucción, robustez y recuperación.
- La propuesta añade cuantización NF4 para reducir almacenamiento, manteniendo resultados competitivos en varios conjuntos de datos.
La carrera por construir agentes de inteligencia artificial más útiles no depende solo de modelos más grandes o de mejores capacidades de razonamiento. También depende de algo mucho más básico: la memoria. Sin una memoria confiable, un agente basado en modelos de lenguaje puede perder detalles observados, olvidar hechos relevantes o gastar demasiados recursos intentando mantener contexto suficiente para responder bien.
Ese es el problema que aborda NextMem: Towards Latent Factual Memory for LLM-based Agents, trabajo firmado por Zeyu Zhang, Rui Li, Xiaoyan Zhao, Yang Zhang, Wenjie Wang, Xu Chen y Tat-Seng Chua. La propuesta plantea una memoria factual latente orientada a agentes con LLM, diseñada para almacenar información de forma compacta, reconstruirla con precisión y reducir tanto la carga de contexto como el costo de almacenamiento.
En términos simples, la idea es mover parte de la memoria desde texto explícito hacia representaciones latentes más cortas y compatibles con los modelos de lenguaje. El objetivo no es solo resumir o indexar, sino preservar hechos de forma reversible. Es decir, que la memoria comprimida pueda decodificarse de vuelta al contenido original con el menor nivel posible de pérdida.
La necesidad de resolver este problema es clara. Los agentes de IA actuales pueden operar como asistentes personales, sistemas de investigación o herramientas de interacción prolongada. En todos esos casos, retener observaciones del pasado es clave para tomar decisiones futuras. El estudio distingue entre memorias orientadas a tareas, como preferencias o experiencia, y memoria factual, que funciona como la base que conserva detalles observables sin necesidad de reinterpretarlos para una tarea específica.
Por qué la memoria factual sigue siendo un cuello de botella
Según explican los autores, la investigación previa ha trabajado sobre dos grandes paradigmas para memoria en agentes con LLM. El primero es la memoria textual, donde la información se guarda como texto y luego se recupera mediante bases de datos o índices para volver a inyectarla al prompt. El problema es que este enfoque aumenta la longitud del contexto y también la sobrecarga de indexación cuando hay muchos detalles que almacenar.
El segundo paradigma es la memoria paramétrica. Aquí, la información se incorpora modificando parámetros del modelo. Aunque esto puede volver el conocimiento parte del propio sistema, también introduce riesgos importantes. Entre ellos destacan el olvido catastrófico y el alto costo de guardar hechos detallados con precisión suficiente.
Frente a esos límites, NextMem propone una tercera vía. La memoria se representa como un espacio latente, más corto que el texto original, pero todavía utilizable por el modelo. La ambición es doble: comprimir la información y permitir su reconstrucción. Esta segunda parte es central, porque en memoria factual no basta con extraer unas cuantas ideas clave. Lo importante es conservar los hechos con un nivel fino de detalle.
Para lectores menos familiarizados con el tema, esto se parece más a un sistema de compresión reversible que a un simple resumen. Un resumen puede sacrificar precisión para ahorrar espacio. En cambio, una memoria factual útil para agentes debe recuperar con fidelidad lo visto antes, porque ese detalle puede afectar decisiones posteriores.
Cómo funciona NextMem
La arquitectura presentada se basa en un autoencoder autorregresivo construido sobre modelos de lenguaje. En la práctica, el sistema cuenta con un codificador y un decodificador que comparten arquitectura, aunque usan distintos pesos. Durante la codificación, el modelo transforma la secuencia textual en una representación latente compuesta por varios embeddings. Luego, durante la decodificación, esas representaciones sirven para reconstruir el texto original.
Los autores añaden un token especial llamado [SoD], que marca el inicio de la transformación. A partir de ese punto, el codificador genera iterativamente embeddings latentes. El resultado final es una secuencia compacta de representaciones que sustituye a un fragmento de texto más largo.
El entrenamiento ocurre en dos etapas. La primera se denomina alineación autorregresiva de reconstrucción. Allí, el sistema aprende a transformar texto en texto de manera autorregresiva. En otras palabras, primero se entrena al modelo para copiar y reconstruir correctamente, estableciendo la base del comportamiento deseado.
La segunda etapa se llama sustitución latente progresiva. En este paso, partes del texto original son reemplazadas gradualmente por representaciones latentes. Esto obliga al decodificador a depender cada vez más de la memoria latente para recuperar los fragmentos faltantes. El diseño progresivo busca estabilizar la optimización y mejorar la compatibilidad entre codificador y decodificador.
Además, el trabajo incorpora cuantización para reducir aún más el costo de almacenamiento. En concreto, emplea cuantización 4-bit NormalFloat, o NF4. El estudio señala que las representaciones latentes muestran suficiente robustez como para tolerar esta compresión con pérdidas mínimas de precisión. Para reconstruir la memoria, el sistema utiliza índices de 4 bits y vectores de escala en formato FP8.
Resultados frente a otros enfoques
La evaluación principal cubre tres tareas ligadas a la memoria de agentes: reconstrucción factual, generación contextual y recuperación densa de pasajes. Para ello, los investigadores usaron conjuntos de datos como SQuAD, HotpotQA, RACE, LoCoMo y LongMemEval. Como referencia, compararon NextMem con DeepSeek-OCR, ICAE y DyPRAG, además de memoria textual y BGE en ciertos escenarios.
En reconstrucción factual, que representa la capacidad de almacenamiento de memoria, NextMem obtuvo los mejores resultados en la mayoría de los casos. En HotpotQA, NextMem-Dense logró F1 de 0,9820 frente a 0,7890 de ICAE y 0,4540 de DeepSeek-OCR. En LongMemEval, alcanzó F1 de 0,9436, mientras ICAE marcó 0,7015. La versión NextMem-Sparse, que usa cuantización, mantuvo cifras muy cercanas, con 0,9805 en HotpotQA y 0,9362 en LongMemEval.
En RACE, los resultados también fueron favorables. NextMem-Dense registró F1 de 0,8552 y BertScore de 0,9735. La variante sparse marcó F1 de 0,8554 y BertScore de 0,9731. Ambas superaron con claridad a ICAE, que quedó en F1 de 0,6077 y BertScore de 0,9370, así como a DyPRAG y DeepSeek-OCR, mucho más rezagados.
En generación contextual, que mide qué tan útil es esa memoria para responder preguntas, apareció un matiz importante. ICAE mostró ventaja cuando la inferencia se hacía directamente sobre la representación comprimida. Sin embargo, NextMem superó a los demás en el escenario de descompresión, donde la respuesta se genera a partir del texto reconstruido. En SQuAD, por ejemplo, NextMem-Sparse alcanzó 0,7630 en DeComp., por encima de 0,7066 de ICAE.
Ese resultado sugiere un intercambio entre capacidad de reconstrucción e instrucción directa sobre el espacio latente. Los autores reconocen ese punto como una línea futura de investigación. Por ahora, el trabajo muestra que NextMem destaca más cuando la prioridad es reconstruir bien la información antes de usarla en inferencia.
La tercera prueba fue recuperación densa de pasajes. Aquí, la memoria latente también funcionó como índice de búsqueda. Los documentos se codificaron en representaciones latentes, luego se redujeron a embeddings 1D y finalmente se compararon mediante similitud coseno con consultas. En HotpotQA, NextMem-Dense obtuvo Hit@5 de 0,7245, muy por encima de 0,4453 de ICAE y 0,3358 de DeepSeek-OCR. BGE siguió liderando como referencia de recuperación pura, con 0,9585.
Robustez, escalabilidad y límites observados
Más allá del rendimiento bruto, el estudio también exploró propiedades importantes para aplicaciones reales. Una de ellas fue la robustez al ruido. Al añadir ruido gaussiano a las memorias latentes, NextMem mantuvo un desempeño estable con niveles moderados, específicamente con σ ≤ 0,8. Incluso bajo perturbaciones más altas, el sistema todavía conservó parte del contenido útil, aunque con degradación creciente.
La cuantización NF4 produjo pérdidas mínimas en la mayoría de los casos. Ese dato es relevante para despliegues con restricciones de memoria, porque sugiere que la compresión adicional no destruye el valor práctico de la representación latente. En un entorno de agentes con largos historiales, esa eficiencia puede ser decisiva.
Los autores también analizaron cómo se distribuye la semántica dentro de la memoria latente. Encontraron un patrón diagonal en las distancias entre versiones perturbadas y originales de un texto, lo que sugiere una asignación espacial ordenada. En términos simples, ciertas posiciones de la memoria parecen responsabilizarse de partes concretas de la información. Eso puede abrir la puerta a edición fina de memoria en trabajos futuros.
Otra observación fue la degradación más lenta de NextMem cuando aumenta la longitud del texto. Aunque todos los modelos pierden precisión al comprimirse más información, NextMem mostró una caída más gradual y mejor extrapolación a secuencias fuera de distribución, por encima de la longitud de entrenamiento de 240 tokens. Aun así, el estudio también reportó pequeñas caídas en secuencias cortas, posiblemente por alucinaciones.
En la sección de ablaciones, el trabajo indica que casi todos los componentes propuestos resultan importantes. Quitar el token [SoD], la sustitución latente progresiva o la estrategia progresiva de expansión redujo el desempeño de forma visible. En la variante sparse, eliminar el escalado en cuantización produjo un deterioro drástico.
También hubo intentos fallidos antes de llegar al diseño final. Los investigadores probaron combinaciones ponderadas de logits, diccionarios latentes adicionales, estrategias tipo mixture-of-experts, RQ-VAE, OMP y reparametrización con Gumbel-Softmax o Gaussian Softmax. En varios casos aparecieron colapso de representación, inestabilidad numérica o textos reconstruidos sin sentido. Ese detalle aporta contexto útil: el diseño final no surgió de una sola iteración, sino de un proceso amplio de depuración.
En conjunto, el trabajo de Zeyu Zhang, Rui Li, Xiaoyan Zhao, Yang Zhang, Wenjie Wang, Xu Chen y Tat-Seng Chua plantea una arquitectura que intenta unir almacenamiento, reconstrucción y recuperación bajo una misma representación latente. Para el ecosistema de IA, eso importa porque los agentes más persistentes y autónomos necesitarán memoria más eficiente, del mismo modo en que una billetera o una base de datos eficiente resulta crítica en infraestructura financiera digital.
Si la línea de investigación madura, sistemas como NextMem podrían ayudar a construir asistentes personales, agentes empresariales o herramientas de investigación que recuerden mejor sin disparar costos computacionales. Todavía hay limitaciones, sobre todo en uso directo del espacio comprimido para generación, pero el estudio deja una señal clara: la memoria factual latente empieza a perfilarse como una alternativa seria frente a las soluciones puramente textuales o paramétricas.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Cardano
Cardano avanza entre polémicas de gobernanza, escalabilidad e IA, según Army of Spies
Hardware
Nvidia desata burlas con DLSS 5 mientras gamers rechazan su apuesta por el renderizado neuronal
IA
OpenSeeker rompe el cerco de datos y libera un agente de búsqueda IA que desafía a gigantes
Análisis de mercado