Por Canuto  

MentisDB lanzó la versión 0.8.1 apenas un día después de la 0.8.0 y reportó mejoras medibles en recuperación de memoria para agentes de IA. La actualización incorpora cohesión de sesión, una fusión vectorial-léxica más suave y un filtro BM25 más estricto, con avances en LoCoMo y LongMemEval sin depender de la nube ni exigir reindexación manual.
***

  • MentisDB 0.8.1 elevó LongMemEval R@5 de 65,0% a 67,6% y llevó LoCoMo de 2 personas a 88,7% R@10.
  • La nueva versión suma puntuación de cohesión de sesión, cambia la curva de fusión vectorial-léxica y endurece el umbral de frecuencia de documento en BM25.
  • El proyecto corrigió dos fallos de borde y sostuvo que cerca del 38% de los errores restantes responden a limitaciones de stemming.


MentisDB, una capa de memoria duradera de código abierto para agentes de inteligencia artificial, presentó la versión 0.8.1 el 10 de abril de 2026. La actualización llegó apenas un día después de la 0.8.0 y, según la documentación oficial del proyecto, busca elevar la calidad de búsqueda con menos falsos positivos y una mejor recuperación de recuerdos en conversaciones largas.

Para entender la relevancia del anuncio, conviene recordar que este tipo de software intenta resolver un problema central de los agentes de IA: cómo guardar, recuperar y conectar información previa con suficiente precisión. En sistemas conversacionales extensos, no basta con encontrar palabras parecidas. También hace falta recuperar contexto cercano, relaciones semánticas y pistas distribuidas a través de varios turnos.

En ese marco, MentisDB aseguró que su nueva versión añade puntuación de cohesión de sesión, ajusta la curva de fusión entre señales vectoriales y léxicas, y endurece el filtro de frecuencia de documento de BM25. El resultado reportado fue una subida en LongMemEval R@5 desde 65,0% hasta 67,6%, mientras que en LoCoMo para 2 personas llegó a 88,7% R@10.

Ese resultado deja al proyecto apenas a 0,2% de la puntuación híbrida publicada por MemPalace, que figura en 88,9% R@10 para ese mismo subconjunto. La mejora también es llamativa por otro motivo: el equipo afirmó que se logró sin reindexación manual, sin cambios de formato y sin dependencias en la nube.

Los números que reporta la actualización

La comparación entre las versiones 0.8.0 y 0.8.1 muestra un avance consistente en varias métricas. En LoCoMo para 2 personas, el R@10 pasó de 87,4% a 88,7%, un incremento de 1,3 puntos porcentuales. En single-hop, el resultado subió de 89,4% a 90,7%. En multi-hop, aumentó de 78,2% a 80,0%.

La documentación también incluyó por primera vez una referencia para LoCoMo de 10 personas, donde MentisDB registró 74,2% R@10. En LongMemEval, el R@5 pasó de 65,0% a 67,6%, mientras que el R@10 avanzó de 70,6% a 73,2%. En ambos casos, la mejora fue de 2,6 puntos porcentuales.

El proyecto añadió que la línea base anterior a la versión 0.8.0 en LoCoMo de 2 personas era de 55,8% R@10. Eso significa que, en dos versiones, el desempeño acumuló una ganancia de 32,9 puntos porcentuales. Esa cifra ayuda a dimensionar la velocidad con la que el sistema está cerrando la brecha frente a referencias ya publicadas.

Para lectores menos familiarizados con estas pruebas, métricas como R@5 y R@10 miden si la respuesta correcta aparece entre los primeros 5 o 10 resultados recuperados. En memoria para agentes, esa eficiencia es clave, porque una recuperación fallida puede degradar razonamiento, coherencia o personalización en tareas posteriores.

Cohesión de sesión para capturar evidencia adyacente

Uno de los cambios centrales de MentisDB 0.8.1 es la llamada puntuación de cohesión de sesión. La idea parte de una observación simple: en conversaciones largas, la evidencia relevante para una consulta muchas veces aparece en un turno adyacente al que coincide de forma literal, incluso si ese turno vecino no comparte palabras clave.

La explicación oficial ofrece un ejemplo concreto. La frase “I went to an LGBTQ conference two days ago” no contiene las mismas palabras de la consulta “when did Caroline go to the LGBTQ conference?”, pero puede estar justo al lado de un turno que sí menciona a Caroline o el evento. En la práctica, ambos fragmentos juntos contienen la respuesta.

Para explotar esa estructura, MentisDB detecta aciertos léxicos de alta puntuación, definidos como score igual o superior a 3,0, y luego potencia pensamientos dentro de un rango de ±8 posiciones en el índice de orden de anexado. El aumento es lineal: vale 0,8 a distancia 1 y cae gradualmente hasta cero en el límite del radio establecido.

El sistema, además, excluye del refuerzo a los pensamientos que ya tienen puntuaciones léxicas fuertes, iguales o superiores a 5,0, para evitar doble conteo. Según el proyecto, el beneficio se observa sobre todo en consultas multi-hop, donde la evidencia no está concentrada en una sola línea sino repartida entre turnos vecinos. En pruebas tempranas, LoCoMo multi-hop subió de 74,5% a 80,0% R@10, y luego se estabilizó en 80,0% con todos los cambios combinados.

Una fusión vectorial-léxica más suave

La versión 0.8.0 ya había reemplazado la suma vectorial plana por un refuerzo por niveles. Ese sistema aplicaba 60× cuando no había señal léxica, 20× cuando era débil y un tratamiento aditivo cuando era fuerte. Aunque funcionó, el equipo concluyó que la función escalonada introducía discontinuidades indeseadas entre umbrales muy cercanos.

El problema, según describió el proyecto, era que un pensamiento con puntuación BM25 de 0,99 podía recibir un trato vectorial muy distinto al de otro con 1,01, a pesar de que la diferencia real era mínima. Para evitar ese salto abrupto, MentisDB 0.8.1 adopta un decaimiento exponencial suave en la contribución vectorial.

La nueva fórmula usa BOOST=35 y DECAY_RATE=3,0. Bajo ese esquema, una coincidencia puramente semántica recibe una amplificación cercana a 36×. Cuando la señal léxica llega a 3,0, el impulso extra cae a cerca de 12×. Con valor léxico de 6,0, la amplificación ronda 2×, de modo que el vector acompaña, pero deja de dominar.

De acuerdo con la descripción técnica, el parámetro más influyente fue precisamente la tasa de decaimiento. Ajustarla de 2,0 a 3,0 añadió por sí sola 1,0% al R@10 de LoCoMo. La explicación ofrecida es que un decaimiento más rápido reduce la interferencia del componente vectorial sobre resultados moderadamente léxicos que ya están cerca de ser correctos.

BM25 más estricto para reducir el ruido de nombres frecuentes

El tercer ajuste importante toca a BM25, un método clásico de ranking léxico que pondera términos según su frecuencia inversa de documento, o IDF. En términos simples, las palabras raras suelen aportar más señal, mientras que las muy comunes aportan menos. El problema aparece cuando nombres propios son frecuentes dentro de un conjunto conversacional.

MentisDB explicó que nombres de entidades como “Caroline” o “Melanie” pueden aparecer en 30% a 50% de los turnos. Con el umbral de 50% usado en 0.8.0, esos nombres no quedaban filtrados, pero seguían siendo lo bastante comunes como para introducir ruido. Así, una pregunta como “what did Caroline research?” podía activar muchos turnos por la sola presencia del nombre, enterrando el que realmente hablaba sobre investigación.

La respuesta en 0.8.1 fue reducir el umbral de frecuencia de documento desde 50% hasta 30%. Con ello, esos nombres dejan de pesar dentro de la puntuación BM25. El turno correcto, según la explicación del proyecto, sigue apareciendo porque coincide además con términos como “research” y “adoption”, pero ya no compite con cientos de menciones irrelevantes de la misma entidad.

Ese cambio también ilustra una tensión habitual en motores híbridos de recuperación: si el filtro es demasiado laxo, crece el ruido; si es demasiado agresivo, se puede perder contexto útil. En este caso, el equipo considera que la nueva configuración mejora la discriminación en datos conversacionales densos y con muchas referencias a personas repetidas.

Errores corregidos y lo que todavía no funciona

La actualización no solo sumó ajustes de ranking. MentisDB también corrigió dos errores que podían hacer fallar el panel en condiciones límite. El primero estaba relacionado con NaN e Infinity. El proyecto indicó que en Rust, f32::NAN.clamp(0.0, 1.0) devuelve NaN, no un valor limitado, y eso podía romper la serialización de serde_json cuando el panel intentaba renderizar un pensamiento.

Para resolverlo, with_confidence() ahora descarta silenciosamente los valores no finitos, while with_importance() usa 0,5 por defecto. Además, thought_json() sanea valores NaN existentes en el borde de serialización. El segundo error era la ausencia del campo session_cohesion en la struct REST RankedSearchScoreResponse, lo que habría provocado un error de compilación para quien construyera desde git HEAD.

El documento técnico también expone una prueba que no funcionó. El equipo intentó filtrar stopwords en inglés, eliminando palabras como “the”, “is”, “what” o “when” antes del stemming. El resultado fue peor: R@10 bajó de 87,4% a 86,7%. La conclusión es que términos como “when” y “what” sí aportan señal temporal y espacial en consultas conversacionales, por lo que un filtrado indiscriminado resulta demasiado burdo.

En cuanto a la brecha restante, MentisDB reconoció que el benchmark completo de 10 personas, con 74,2% R@10, sigue siendo mucho más difícil. Allí abundan nombres de entidades y las sesiones son más largas. El patrón dominante de fallo, según el proyecto, está en las limitaciones del stemming: “went” no se reduce a “go”, “gave” no se reduce a “talk”, y “research” como sustantivo difiere de “research” como verbo.

La documentación sostiene que cerca del 38% de los fallos restantes ni siquiera aparecen en el top-50. Eso sugiere una brecha léxica real que no puede resolverse solo afinando el scoring. En otras palabras, una parte del problema ya no pasa por reordenar mejor los resultados existentes, sino por encontrar mecanismos de recuperación capaces de captar variaciones lingüísticas que el stemming tradicional no logra unificar.

Para actualizar, el proyecto indicó que puede usarse el comando cargo install mentisdb o, desde el código fuente, git pull seguido de cargo install –path . –locked. Las cadenas existentes, los sidecars vectoriales y los registros de skills se migran automáticamente. El índice léxico se reconstruye en el primer acceso debido al cambio en el umbral de frecuencia de documento.

En conjunto, MentisDB 0.8.1 muestra cómo pequeños cambios en ranking, contexto local y filtrado de términos pueden producir mejoras cuantificables en memoria persistente para agentes de IA. En un mercado donde muchos sistemas todavía dependen de servicios externos, el hecho de que esta capa opere completamente en local y sin dependencias en la nube añade un ángulo técnico y estratégico que probablemente seguirá atrayendo atención.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín