Estudio revela que las principales IA discrepan en dos de cada tres verificaciones de hechos

𝕏

Viernes, 29 de Mayo, 2026

Por Canuto

Una nueva investigación encontró que los modelos de inteligencia artificial más avanzados del mercado suelen ofrecer respuestas contradictorias al verificar afirmaciones reales, incluso cuando analizan exactamente la misma información.

***

Al menos una IA discrepó en 672 de 1.000 afirmaciones evaluadas.
En un tercio de los casos hubo desacuerdos extremos entre “verdadero” y “falso”.
El estudio cuestiona la fiabilidad de las IA como verificadores de hechos.

La creciente popularidad de herramientas como ChatGPT, Claude, Gemini y otros asistentes de inteligencia artificial ha llevado a muchas personas a utilizarlas para verificar información y contrastar noticias. Sin embargo, un nuevo estudio publicado este mes por el investigador Kosta Jordanov, de Lenz Research, sugiere que estos sistemas aún presentan importantes limitaciones cuando se trata de evaluar hechos del mundo real.

La investigación analizó el comportamiento de cinco de los modelos más avanzados actualmente disponibles: GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro con Search y Sonar Pro. Todos recibieron las mismas 1.000 afirmaciones reales enviadas por usuarios a una plataforma de fact-checking y debían clasificarlas en una de cuatro categorías: verdadero, mayormente verdadero, engañoso o falso, detalla Decrypt.

Los resultados mostraron que, en 672 de los 1.000 casos analizados, al menos uno de los modelos emitió una evaluación distinta a la mayoría. Más llamativo aún, en el 34% de las afirmaciones hubo desacuerdos considerados severos, donde una IA calificó una afirmación como verdadera mientras otra la clasificó directamente como falsa.

El problema no son las alucinaciones

Los investigadores subrayan que el hallazgo es diferente al fenómeno conocido como “alucinaciones”, donde una IA inventa información inexistente.

En este caso, los modelos no necesariamente estaban generando datos falsos, sino que simplemente no lograban ponerse de acuerdo sobre cómo interpretar o evaluar la misma afirmación. Según el estudio, esto revela una inconsistencia estructural en los sistemas actuales de IA cuando enfrentan información compleja o ambigua.

“La mayoría de estos casos probablemente no aparecen en ningún conjunto de entrenamiento acompañado de una respuesta oficial”, explica el informe. Al utilizar afirmaciones reales enviadas por usuarios, los investigadores evitaron los clásicos bancos de pruebas utilizados por las compañías tecnológicas, reduciendo la posibilidad de que los modelos estuvieran respondiendo preguntas memorizadas durante su entrenamiento.

Los modelos coinciden poco en los casos grises

Para medir el grado de consenso, el estudio utilizó una métrica estadística conocida como alfa de Krippendorff, que arrojó un resultado de 0,639 en una escala donde 1 representa acuerdo perfecto y 0 equivale a respuestas aleatorias.

Según los investigadores, este nivel indica que existe cierto patrón compartido entre los modelos, pero no el suficiente como para tratarlos como jueces intercambiables de la verdad. En términos académicos, valores inferiores a 0,8 suelen considerarse insuficientes para afirmar una alta consistencia.

Uno de los hallazgos más llamativos fue que las IA solo tendían a coincidir cuando las afirmaciones parecían claramente verdaderas o claramente falsas. De las 1.000 afirmaciones evaluadas, apenas 328 recibieron una evaluación idéntica por parte de los cinco modelos.

Además, solo cuatro afirmaciones obtuvieron un consenso unánime bajo la categoría “engañosa” y ninguna recibió una clasificación unánime como “mayormente verdadera”.

Los investigadores resumieron este fenómeno señalando que “el panel converge en los extremos, pero se fractura en los matices”.

Ejemplos de desacuerdos significativos

Entre los ejemplos citados en el estudio figura la afirmación de que “la cartera activa del Banco Mundial en Nigeria supera los USD $16.400 millones en 2025”.

GPT-5.4 consideró que la afirmación era “mayormente verdadera”, mientras que Gemini 3 Pro la calificó como “falsa” y Gemini 3 Pro con Search optó por la categoría “engañosa”.

Otro caso incluyó la afirmación de que “Donald Trump dijo que un ataque contra Irán fue pospuesto a petición de aliados del Golfo”. En esa ocasión, GPT-5.4 y Gemini 3 Pro respondieron que era falsa, Claude Opus la consideró mayormente verdadera y Gemini 3 Pro con Search concluyó que era verdadera.

Estos ejemplos ilustran cómo modelos altamente sofisticados pueden llegar a conclusiones completamente distintas a partir de una misma afirmación.

Crecen las dudas sobre el fact-checking automatizado

El estudio llega en un momento en que millones de personas recurren diariamente a herramientas de IA para verificar información, interpretar noticias o contrastar declaraciones públicas.

Si un usuario copia una afirmación de una noticia y la consulta simultáneamente a ChatGPT, Claude y Gemini, existe una probabilidad considerable de que reciba respuestas diferentes. La investigación plantea entonces una pregunta incómoda: ¿cómo determinar cuál de ellas es correcta?

Los autores enfatizan que el veredicto de la mayoría tampoco debe considerarse automáticamente la verdad absoluta. “La mayoría de modelos de frontera no constituye una fuente definitiva de verdad”, advierte el informe. En ocasiones, la posición minoritaria puede ser la correcta y el consenso puede estar equivocado.

Sin embargo, cuando los sistemas discrepan, necesariamente al menos uno de ellos está emitiendo una clasificación incorrecta bajo el esquema utilizado por el estudio.

Un desafío para el futuro de la IA

Los resultados también ponen en duda la forma en que las compañías de inteligencia artificial presentan los avances de sus modelos. Aunque las empresas suelen destacar mejoras constantes en pruebas estandarizadas y benchmarks, el estudio de Lenz Research sugiere que el desempeño en situaciones reales puede ser mucho menos consistente.

La investigación concluye que los sistemas actuales parecen desenvolverse mejor cuando deben evaluar afirmaciones claramente verdaderas o falsas, pero encuentran dificultades significativas en escenarios donde intervienen matices, contexto o interpretaciones parciales.

A medida que la IA se convierte en una herramienta cada vez más utilizada para verificar información, estos hallazgos sugieren que la supervisión humana continúa siendo un componente esencial para distinguir entre hechos, interpretaciones y errores potenciales de los modelos.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,03%	$58,78 mmd
BTC	Bitcoin	-3,11%	$30,24 mmd
ETH	Ethereum	-2,77%	$11,2 mmd
USDC	USDC	0,0%	$10,59 mmd
SOL	Solana	-3,4%	$1,92 mmd
XRP	XRP	-3,43%	$1,24 mmd
BNB	BNB	-2,36%	$1,0 mmd
USD1	World Liberty Financial USD	-0,01%	$0,822 311 mmd
TRX	TRON	-1,84%	$0,523 684 mmd
DOGE	Dogecoin	-2,31%	$0,492 388 mmd

CRV	Curve DAO Token	4,59%	$0,220 038
JUP	Jupiter	2,69%	$0,208 638
PUMP	Pump.fun	2,02%	$0,001 484
POL	Polygon (prev. MATIC)	1,56%	$0,082 14
STABLE	Stable	0,84%	$0,037 365
ASTER	Aster	0,54%	$0,626 984
AVAX	Avalanche	0,07%	$6,45
USDC	USDC	0,0%	$0,999 783

PI	Pi	-18,94%	$0,078 77
DEXE	DeXe	-14,0%	$41,26
LIT	Lighter	-12,87%	$2,32
ETHFI	ether.fi	-9,74%	$0,380 14
WLD	Worldcoin	-8,54%	$0,390 897
SPX	SPX6900	-7,76%	$0,349 396
ZEC	Zcash	-7,25%	$497,32
HYPE	Hyperliquid	-7,06%	$63,2
VIRTUAL	Virtuals Protocol	-6,78%	$0,549 293
BONK	Bonk	-6,6%	$0,000 003

Estudio revela que las principales IA discrepan en dos de cada tres verificaciones de hechos

El problema no son las alucinaciones

Los modelos coinciden poco en los casos grises

Ejemplos de desacuerdos significativos

Crecen las dudas sobre el fact-checking automatizado

Un desafío para el futuro de la IA

Suscríbete a nuestro boletín

Artículos Relacionados

CEO de TeraWulf confirma que abandonan la minería Bitcoin para apostar por centros de datos para la IA

Apple acusa a OpenAI de apropiarse de secretos comerciales para su negocio de hardware

Lonestar anuncia modelos de IA soberanos que funcionarán desde el espacio

12 estados entablan demandas para frenar fusión entre Paramount y Warner Bros por USD $110.000 millones