GLM-5.2 toma la delantera entre modelos open weights y roza a GPT-5.5 en pruebas agentic

𝕏

Hace 21 minutos

Por Canuto

GLM-5.2, desarrollado por Z ai, escaló al primer lugar entre los modelos de pesos abiertos en el índice de Artificial Analysis. El avance no solo mejora de forma notable frente a GLM-5.1, sino que también lo acerca al desempeño de modelos propietarios en pruebas de agentes, aunque con un costo importante en uso de tokens de salida.
***

GLM-5.2 obtuvo 51 puntos en el Índice de Inteligencia v4.1 y superó a MiniMax-M3, DeepSeek V4 Pro y Kimi K2.6.
El modelo alcanzó 1.524 en GDPval-AA v2, por delante de otros open weights y prácticamente al nivel de GPT-5.5 en razonamiento xhigh.
Su principal punto débil es la eficiencia, ya que usa 43.000 tokens de salida por tarea, más que varios de sus rivales directos.

🚀 GLM-5.2 lidera el índice de modelos open weights con 51 puntos

Superó a MiniMax-M3, DeepSeek V4 Pro y Kimi K2.6

Aumentó la puntuación sin incrementar el tamaño del modelo

Sin embargo, consume 43.000 tokens de salida por tarea

Esto afecta la eficiencia en comparación… pic.twitter.com/pvYvARyzPE

— Diario฿itcoin (@DiarioBitcoin) June 18, 2026

La competencia entre modelos de inteligencia artificial de pesos abiertos sumó un nuevo protagonista de peso. GLM-5.2, desarrollado por Z ai, pasó a ocupar el primer lugar entre los modelos open weights en el Índice de Inteligencia v4.1 elaborado por Artificial Analysis.

El modelo obtuvo una puntuación de 51, suficiente para colocarse por encima de MiniMax-M3 y DeepSeek V4 Pro, ambos con 44 puntos, así como de Kimi K2.6, que registró 43. Ese resultado también lo ubica dentro de la frontera de Pareto entre inteligencia y costo por tarea, detalla un reporte publicado por Artificialanalysis.

Para lectores menos familiarizados con este mercado, los modelos de pesos abiertos son sistemas cuyos parámetros pueden ser utilizados o desplegados con mayor flexibilidad que los modelos cerrados. En la práctica, esto suele atraer a empresas, desarrolladores e investigadores que buscan más control, menores barreras de integración y opciones de personalización.

El ascenso de GLM-5.2 resulta relevante porque se produjo sin cambios en el tamaño total del modelo frente a su versión previa. Según indicó Artificial Analysis, mantiene 744.000 millones de parámetros totales y 40.000 millones de parámetros activos, igual que GLM-5.1, pero logra 11 puntos adicionales en el índice.

Esa mejora sugiere que el salto de rendimiento no provino de una expansión bruta de escala, sino de ajustes en entrenamiento, arquitectura o inferencia. Aunque la fuente no detalla esos cambios internos, los resultados muestran un avance amplio en varias evaluaciones técnicas clave.

Un nuevo líder entre modelos de pesos abiertos

El dato central del informe es que GLM-5.2 se convirtió en el modelo líder de pesos abiertos dentro del Índice de Inteligencia v4.1. Con 51 puntos, superó a los principales rivales abiertos medidos por la firma.

La distancia no fue menor. MiniMax-M3 quedó en 44 puntos, DeepSeek V4 Pro en su variante max también marcó 44, mientras Kimi K2.6 se ubicó en 43.

En el segmento de APIs de primer nivel, el precio del modelo se mantuvo alineado con el de GLM-5.1. La estructura tarifaria reportada fue de USD $1,4 por 1 millón de tokens de entrada, USD $4,4 por 1 millón de tokens de salida y USD $0,26 por 1 millón de tokens en caché.

Eso implica que el nuevo liderazgo no estuvo acompañado por un encarecimiento directo de la lista de precios base. Aun así, el costo real por tarea sí aumentó, debido a que el modelo genera una cantidad sustancialmente mayor de tokens de salida durante las pruebas.

En el gráfico de inteligencia frente a costo por tarea, GLM-5.2 aparece en la frontera de Pareto. Esa posición describe a los modelos que, para su nivel de rendimiento, ofrecen una combinación competitiva de costo, incluso si no son necesariamente los más baratos de toda la muestra.

La referencia concreta aportada por la evaluación sitúa a GLM-5.2 en un costo aproximado de USD $0,46 por tarea. Como contraste, GLM-5.1 ronda USD $0,25, Kimi K2.6 cerca de USD $0,31, MiniMax-M3 unos USD $0,18 y DeepSeek V4 Pro max apenas USD $0,05.

Las pruebas donde más mejoró GLM-5.2

El informe destaca que GLM-5.2 mejoró frente a GLM-5.1 en la mayoría de las evaluaciones incluidas en el índice. El mayor salto se observó en razonamiento científico, un segmento cada vez más importante para medir la utilidad avanzada de estos sistemas.

En CritPt, el modelo ganó 16 puntos y llegó a 21%. En HLE sumó 12 puntos hasta alcanzar 40%.

También avanzó en AA-LCR con un incremento de 9 puntos hasta 71%. En banca tau3 registró una mejora de 15 puntos y alcanzó 27%.

En SciCode subió 7 puntos y llegó a 50%. TerminalBench v2.1 añadió otros 16 puntos para colocarse en 78%.

La prueba GPQA Diamond mostró una mejora más moderada, aunque igualmente positiva. Allí GLM-5.2 sumó 3 puntos y alcanzó 89%.

Visto en conjunto, el patrón sugiere que Z ai fortaleció sobre todo capacidades de razonamiento, programación y resolución de tareas técnicas. Ese perfil suele ser observado de cerca por empresas que evalúan agentes de IA para asistencia científica, automatización de flujos de trabajo y desarrollo de software.

GDPval-AA v2 y la cercanía con modelos propietarios

Uno de los resultados más llamativos del reporte aparece en GDPval-AA v2, la métrica principal de Artificial Analysis para medir rendimiento agentic en escenarios de mayor cercanía con el mundo real. En esa prueba, GLM-5.2 obtuvo 1.524 puntos.

Esa cifra lo deja por delante de MiniMax-M3, que marcó 1.418, y de DeepSeek V4 Pro max, que registró 1.328. Además, el resultado lo coloca prácticamente al nivel de GPT-5.5 en razonamiento xhigh, señalado con 1.514.

Para entender la relevancia del dato, conviene recordar que GDPval-AA v2 fija el estándar de rendimiento humano en 1.000 puntos. También introduce un panel rotativo de jueces de modelos frontera y amplía el límite de turnos desde 100 hasta 250 para trayectorias de agentes de largo horizonte.

Ese diseño busca capturar mejor el desempeño en tareas complejas que requieren persistencia, adaptación y múltiples pasos de razonamiento. Por eso, un puntaje de 1.524 para un modelo open weights tiene peso estratégico dentro del actual mercado de IA.

Artificial Analysis señaló que inspeccionó visualmente las salidas de GLM-5.2 en una variedad de tareas de GDPval-AA. Aunque el informe no reproduce todos esos casos en el texto base aquí resumido, sí remarca que el modelo lidera entre todos los open weights medidos en esta categoría.

Ese desempeño es relevante porque la batalla en IA ya no gira solo en torno a benchmarks académicos tradicionales. Cada vez más, inversionistas, laboratorios y usuarios empresariales buscan señales de utilidad práctica en tareas agentic, donde un sistema debe ejecutar procesos más extensos con menor supervisión humana.

Mayor contexto, licencia MIT y despliegue amplio

GLM-5.2 mantiene una licencia MIT, un detalle importante para el ecosistema técnico. Ese marco suele ser valorado por desarrolladores y empresas porque facilita el uso, la modificación y la integración en proyectos comerciales o de investigación.

Otro cambio importante es la expansión de la ventana de contexto. GLM-5.2 ofrece 1 millón de tokens, frente a los 200.000 tokens reportados para GLM-5.1.

En términos prácticos, una ventana de contexto más grande permite procesar conversaciones, documentos o bases de código mucho más extensos sin perder continuidad. Eso puede resultar útil en análisis complejos, asistentes corporativos, revisión documental o tareas de programación con repositorios amplios.

La disponibilidad del modelo tampoco se limita al canal principal de Z ai. Según la información difundida, GLM-5.2 también está accesible a través de proveedores terceros como DeepInfra, Novita, Nebius, Parasail, Siliconflow, GMI Cloud, Baseten y Fireworks.

Esa distribución más amplia puede acelerar su adopción en distintos segmentos del mercado. En especial, podría favorecer pruebas rápidas por parte de startups, equipos de infraestructura y compañías que comparan costos y rendimiento entre varios proveedores de inferencia.

El precio reportado para uso por token fue de USD $1,4 por 1 millón de tokens de entrada, USD $0,26 por 1 millón de tokens cacheados y USD $4,4 por 1 millón de tokens de salida. Aunque estas tarifas no lucen desalineadas frente a la generación previa, la eficiencia total depende del volumen de respuesta que el modelo produce por cada tarea.

La debilidad del modelo: más inteligencia, pero menos eficiencia en tokens

No todo en el balance de GLM-5.2 apunta a una mejora limpia. El informe subraya que el modelo utiliza 43.000 tokens de salida por tarea en el Índice de Inteligencia, un nivel superior al de varios de sus rivales directos.

Ese volumen representa un salto frente a GLM-5.1, que usaba 26.000 tokens de salida por tarea. También supera a MiniMax-M3 con 24.000, a Kimi K2.6 con 35.000 y a DeepSeek V4 Pro max con 37.000.

De esos 43.000 tokens, unos 37.000 corresponden a razonamiento, siempre según la evaluación citada. Eso lo coloca entre los modelos de pesos abiertos menos eficientes en tokens dentro de su rango de inteligencia.

La consecuencia es doble. Por un lado, el modelo logra resultados más altos; por otro, ese rendimiento demanda respuestas más largas y, en muchos casos, inferencias más costosas.

Por esa razón, GLM-5.2 queda fuera del cuadrante más atractivo del gráfico de Inteligencia frente a Tokens de Salida. Para muchos usuarios empresariales, esa métrica es crucial, ya que la eficiencia puede pesar tanto como la capacidad bruta cuando se escala el uso a millones de consultas.

Desde una perspectiva de mercado, esto abre una discusión conocida en la industria de IA. Un modelo puede liderar en benchmarks y aun así enfrentar resistencia comercial si su consumo de tokens, latencia o costo operacional termina erosionando la ventaja de rendimiento.

Menos alucinaciones y señales de madurez competitiva

GLM-5.2 también mostró avances en el Índice de Omnisciencia AA. Allí obtuvo una puntuación de 4, frente al 2 reportado para GLM-5.1.

La mejora provino de una combinación de mayor precisión y menor tasa de alucinación. La precisión subió a 25,1% desde 24,2%, mientras la tasa de alucinación bajó a 28,1% desde 29,4%.

La tasa de intento se mantuvo estable en 47%. Ese detalle sugiere que el avance no se apoyó en una conducta más conservadora del sistema, sino en una ejecución algo más precisa dentro de un nivel de participación similar.

En el panorama más amplio, GLM-5.2 refuerza la percepción de que el segmento open weights se está acercando a niveles antes reservados a modelos propietarios. No significa que todas las brechas hayan desaparecido, pero sí indica que la frontera competitiva se está moviendo con rapidez.

Para sectores como software, automatización empresarial, análisis de datos e incluso servicios financieros, esta evolución importa porque amplía el abanico de opciones. Un modelo con licencia más flexible, fuerte desempeño agentic y contexto de 1 millón de tokens puede convertirse en una alternativa seria para despliegues avanzados.

Al mismo tiempo, la noticia recuerda que el liderazgo en IA no depende de una sola variable. GLM-5.2 avanza en capacidad, se posiciona bien en costo por tarea para su nivel de inteligencia y roza a modelos cerrados en ciertas pruebas, pero todavía arrastra un punto débil claro en eficiencia de salida.

En síntesis, el nuevo modelo de Z ai emerge como un referente dentro de la IA abierta. Su desafío ahora será demostrar que ese desempeño también puede sostenerse con eficiencia operativa suficiente para competir en adopción real y no solo en los rankings técnicos.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,03%	$69,47 mmd
BTC	Bitcoin	-2,5%	$31,6 mmd
ETH	Ethereum	-3,1%	$13,66 mmd
USDC	USDC	0,02%	$11,68 mmd
SOL	Solana	-4,44%	$2,45 mmd
USD1	World Liberty Financial USD	-0,01%	$1,92 mmd
XRP	XRP	-4,26%	$1,91 mmd
WLD	Worldcoin	-5,19%	$1,34 mmd
HYPE	Hyperliquid	-5,22%	$1,22 mmd
BNB	BNB	-4,1%	$1,2 mmd

BEAT	Audiera	17,5%	$1,83
H	Humanity	15,1%	$0,231 179
币安人生	币安人生	5,87%	$0,712 205
XLM	Stellar	5,19%	$0,234 466
JTO	Jito	3,07%	$0,743 344
DEXE	DeXe	3,03%	$15,42
ALGO	Algorand	2,82%	$0,100 042
NIGHT	Midnight	2,04%	$0,031 083
POL	Polygon (prev. MATIC)	1,03%	$0,077 162
GRAM	Gram (prev. Toncoin)	0,93%	$1,64

SPX	SPX6900	-14,45%	$0,381 8
ASTER	Aster	-13,27%	$0,634 558
AERO	Aerodrome Finance	-11,03%	$0,437 431
LIT	Lighter	-10,75%	$1,6
VVV	Venice Token	-10,45%	$14,12
ATOM	Cosmos	-8,11%	$1,78
SUI	Sui	-7,7%	$0,718 335
ZEC	Zcash	-7,52%	$448,97
UNI	Uniswap	-7,19%	$2,97
BCH	Bitcoin Cash	-6,91%	$197,01

GLM-5.2 toma la delantera entre modelos open weights y roza a GPT-5.5 en pruebas agentic

Un nuevo líder entre modelos de pesos abiertos

Las pruebas donde más mejoró GLM-5.2

GDPval-AA v2 y la cercanía con modelos propietarios

Mayor contexto, licencia MIT y despliegue amplio

La debilidad del modelo: más inteligencia, pero menos eficiencia en tokens

Menos alucinaciones y señales de madurez competitiva

Suscríbete a nuestro boletín

Artículos Relacionados

Rockstar revela fecha de inicio de reservas para GTA 6 y crece la confianza en su estreno para noviembre

Mivo lanza app para frenar el doomscrolling con pausas conscientes y sin castigos

FERC acelera conexiones eléctricas para centros de datos de IA en EE. UU.

Rivian enfrenta demanda colectiva por promesas falsas sobre conducción autónoma