MemPalace bajo fuego por comparar métricas de IA que no miden lo mismo

𝕏

Hace 9 minutos

Por Canuto

Una revisión técnica publicada por Thin Signal puso en duda una de las afirmaciones más llamativas del sector de memoria para IA: que MemPalace sería el sistema mejor evaluado hasta la fecha. El análisis sostiene que el famoso 96,6% no sería comparable con los resultados de otros competidores y que, en la práctica, el benchmark habría medido capacidades básicas de ChromaDB más que la arquitectura propia del proyecto.
***

Thin Signal afirmó que MemPalace comparó métricas distintas en una misma tabla, mezclando Recall@5 de recuperación con precisión de preguntas y respuestas de extremo a extremo.
El análisis sostiene que el 96,6% en LongMemEval se obtuvo con configuración por defecto de ChromaDB y embeddings all-MiniLM-L6-v2, sin usar la arquitectura central de MemPalace.
También cuestionó la promesa de “compresión sin pérdida de 30x”, al reportar una reducción de 536 a 122 caracteres, equivalente a 4,4x y con pérdida de información clave.

La discusión sobre cómo medir la memoria de los sistemas de inteligencia artificial volvió a encenderse tras una crítica pública a MemPalace, una herramienta que se presentaba como “el sistema de memoria para IA con la puntuación más alta jamás evaluado”. El cuestionamiento surgió después de que Thin Signal asegurara haber clonado el proyecto, instalado su código, ejecutado sus benchmarks y revisado cada línea del repositorio.

Según esa revisión, la afirmación central de MemPalace descansa en un resultado de 96,6% en LongMemEval, un número que se colocó por encima de referencias como Mem0, Zep y Mastra. Sin embargo, el análisis argumenta que esa comparación no sería válida, porque los sistemas enfrentados no estarían siendo medidos con el mismo criterio técnico.

En el centro de la controversia está una diferencia que puede parecer menor para el público general, pero que resulta decisiva para investigadores y desarrolladores. MemPalace reportó Recall@5 de recuperación, mientras que los demás sistemas citados habrían informado precisión de preguntas y respuestas de extremo a extremo. Aunque ambos números pueden presentarse como porcentajes de rendimiento, no miden la misma tarea.

Ese punto importa porque los benchmarks son una pieza clave en el mercado de IA. No solo influyen en reputación, también afectan adopción, alianzas y la narrativa comercial de productos que prometen mejorar la memoria de agentes y asistentes avanzados. Cuando dos métricas distintas se muestran en una sola tabla como si fueran equivalentes, el riesgo es inducir a conclusiones exageradas.

La crítica a la comparabilidad del 96,6%

Thin Signal sostuvo que el benchmark usado por MemPalace opera a nivel de sesión dentro de LongMemEval_s, donde habría cerca de 50 sesiones por pregunta. En ese marco, MemPalace recupera con n_results=50, es decir, consulta todas las sesiones disponibles. Luego, el Recall@5 pregunta si la sesión correcta aparece dentro de las cinco primeras de un universo cercano a 50 candidatos.

Con esa estructura, el propio análisis afirma que una línea base aleatoria sería de 10%. A partir de allí, sostuvo que cualquier modelo de embeddings “decente” puede superar 95% con relativa facilidad. La implicación es que el desafío evaluado no sería especialmente exigente y, por tanto, el 96,6% no debería interpretarse como una prueba extraordinaria de superioridad arquitectónica.

La revisión también subrayó que LongMemEval ya tiene resultados publicados a otro nivel de dificultad. Citó cifras de Recall@5 a nivel de turno del trabajo RMM de ACL 2025: Contriever con 54,3%, Stella 1.5B con 59,2%, GTE con 62,4% y RMM+GTE con 69,8%. Frente a ese telón de fondo, el señalamiento central es que MemPalace usó el mismo nombre de benchmark, pero en una variante distinta y más fácil.

En términos prácticos, el argumento de Thin Signal es que dos números pueden pertenecer a la misma familia de pruebas y aun así no ser directamente comparables. Si uno evalúa recuperación por sesión con unos 50 candidatos y otro mide recuperación por turno con un problema más fino, presentarlos lado a lado como si fueran equivalentes puede distorsionar la lectura del desempeño real.

El papel de ChromaDB en el benchmark

Otro de los puntos más delicados del hilo fue la afirmación de que la ruta que lleva al 96,6% no emplea ninguna lógica específica de MemPalace. Según la revisión, ese resultado se obtiene con las funciones por defecto collection.add() y collection.query() de ChromaDB, apoyadas en el modelo de embeddings all-MiniLM-L6-v2 de 22 millones de parámetros.

La conclusión del autor fue tajante: la “arquitectura palace”, descrita como un esquema de alas y habitaciones, no se utilizaría en absoluto dentro del benchmark bruto que sustenta la cifra promocionada. Si eso es correcto, el resultado no estaría validando el diseño distintivo de MemPalace, sino la capacidad estándar de una base vectorial ampliamente conocida.

Ese matiz es relevante en un momento en que muchos proyectos de IA compiten por demostrar ventajas estructurales en memoria persistente, recuperación contextual y compresión de información. Cuando una startup o herramienta atribuye un récord a su arquitectura, el mercado tiende a asumir que el diseño interno fue el responsable directo del rendimiento.

Thin Signal añadió que, al ejecutar el código, el benchmark no usaría MemPalace como tal, sino “vanilla” ChromaDB. Además, señaló que el único lugar donde se menciona explícitamente MemPalace dentro del flujo revisado arrojaría una puntuación considerablemente peor. Esa observación refuerza la tesis de que la cifra estrella no describiría de forma fiel la contribución real del sistema.

La promesa de “compresión sin pérdida” también fue cuestionada

La crítica no se limitó a las métricas de recuperación. Thin Signal también puso a prueba la función AAAK, presentada por MemPalace como una “compresión sin pérdida de 30x”. En la prueba descrita, una entrada de 536 caracteres terminó convertida en una salida de 122 caracteres.

Eso equivale a una compresión aproximada de 4,4x, muy lejos del factor 30x promocionado. Pero el punto más fuerte no fue solo la diferencia numérica, sino la pérdida de contenido. De acuerdo con el análisis, desaparecieron datos sobre quién gestionaba el equipo, información de antigüedad, la existencia de un miembro del equipo, una fecha límite y parte del contexto necesario para razonar.

Si esa evaluación se sostiene, la expresión “sin pérdida” quedaría seriamente comprometida. En sistemas de memoria para IA, comprimir no es solo reducir caracteres. También implica preservar relaciones, prioridades, responsables y restricciones temporales. Quitar esos elementos puede volver menos útil la memoria, incluso si el texto final es más corto.

En el ecosistema de agentes autónomos, donde los modelos deben recordar instrucciones, decisiones previas y contexto operativo, la precisión de estas promesas es clave. Una compresión agresiva que elimina piezas esenciales puede traducirse en errores de seguimiento, fallas de coordinación o respuestas incompletas, especialmente en entornos empresariales.

Por qué esta disputa importa más allá de un solo proyecto

La controversia alrededor de MemPalace ilustra un problema recurrente en inteligencia artificial: la dificultad de comparar sistemas cuando cada equipo selecciona métricas, configuraciones y niveles de dificultad distintos. Para usuarios no técnicos, un 96,6% puede sonar concluyente. Para especialistas, ese número solo tiene sentido si se entiende exactamente qué fue medido y bajo qué condiciones.

La industria de IA vive una etapa en la que los benchmarks funcionan como vitrinas comerciales. Eso ha impulsado avances importantes, pero también ha creado incentivos para escoger pruebas favorables o presentar resultados en formatos que lucen más impresionantes de lo que realmente son. El debate no es nuevo, pero sigue siendo especialmente sensible en áreas como memoria de largo plazo y agentes de software.

En este caso, el hilo de Thin Signal no acusó directamente fraude, pero sí describió una presentación potencialmente engañosa de resultados. La distinción es importante. Un sistema puede funcionar bien en un escenario concreto y aun así ser promocionado de forma exagerada si se omite el contexto técnico que da sentido a sus métricas.

Hasta ahora, el centro del debate sigue siendo metodológico. La cuestión no es solo si MemPalace obtuvo 96,6%, sino qué significa exactamente ese número y si puede compararse de manera honesta con Mem0, Zep, Mastra u otros resultados publicados. Para un sector que depende de confianza técnica, esa diferencia puede ser decisiva.

La discusión también recuerda que abrir el código o permitir la reproducción de pruebas no elimina por sí solo los problemas de interpretación. La transparencia ayuda, pero sigue siendo necesario revisar si la tarea evaluada representa el reto que el producto dice resolver. En el terreno de la IA aplicada, esa brecha entre marketing y medición suele ser donde aparecen las polémicas más duraderas.

Por ahora, la revisión difundida por Thin Signal ha colocado a MemPalace bajo mayor escrutinio. Más allá del desenlace puntual, el episodio deja una advertencia útil para desarrolladores, inversionistas y usuarios: en benchmarks de IA, no basta con mirar el porcentaje final. También hay que examinar la métrica, el nivel de dificultad y el componente real del sistema que fue puesto a prueba.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,01%	$96,33 mmd
BTC	Bitcoin	4,4%	$48,17 mmd
ETH	Ethereum	6,49%	$25,19 mmd
USDC	USDC	-0,0%	$13,69 mmd
SOL	Solana	6,2%	$5,95 mmd
XRP	XRP	5,36%	$2,91 mmd
BNB	BNB	2,98%	$2,15 mmd
DOGE	Dogecoin	4,83%	$1,69 mmd
USD1	World Liberty Financial USD	-0,02%	$1,63 mmd
ZEC	Zcash	22,84%	$0,903 571 mmd

ZEC	Zcash	22,84%	$321,59
ZRO	LayerZero	18,28%	$2,07
EDGE	edgeX	17,17%	$1,08
ENA	Ethena	14,26%	$0,092 281
ICP	Internet Computer	11,98%	$2,56
MON	Monad	11,22%	$0,029 984
ARB	Arbitrum	10,6%	$0,103 908
PEPE	Pepe	10,38%	$0,000 003
SUI	Sui	10,11%	$0,960 084
RENDER	Render	9,91%	$2,06

DEXE	DeXe	-13,83%	$7,65
M	MemeCore	-8,81%	$2,65
SIREN	siren	-5,31%	$0,567 007
CC	Canton	-2,67%	$0,144 58
USD1	World Liberty Financial USD	-0,02%	$0,999 427
USDT	Tether USDt	-0,01%	$0,999 855
USDe	Ethena USDe	-0,0%	$0,999 76
USDC	USDC	-0,0%	$0,999 799

MemPalace bajo fuego por comparar métricas de IA que no miden lo mismo

La crítica a la comparabilidad del 96,6%

El papel de ChromaDB en el benchmark

La promesa de “compresión sin pérdida” también fue cuestionada

Por qué esta disputa importa más allá de un solo proyecto

Suscríbete a nuestro boletín

Artículos Relacionados

Bot en Polymarket ganó USD $438.000 y expone cómo la IA está redibujando el arbitraje global

La IA acelera su avance en 2026 y redefine ciencia, negocios y poder industrial

Sam Altman advierte que la superinteligencia está cerca y pide debatir su impacto ya

Claude Mythos preview desata alertas por su potencia en ciberseguridad y automatización