Una nueva investigación encontró que los modelos de inteligencia artificial más avanzados del mercado suelen ofrecer respuestas contradictorias al verificar afirmaciones reales, incluso cuando analizan exactamente la misma información.
***
- Al menos una IA discrepó en 672 de 1.000 afirmaciones evaluadas.
- En un tercio de los casos hubo desacuerdos extremos entre “verdadero” y “falso”.
- El estudio cuestiona la fiabilidad de las IA como verificadores de hechos.
La creciente popularidad de herramientas como ChatGPT, Claude, Gemini y otros asistentes de inteligencia artificial ha llevado a muchas personas a utilizarlas para verificar información y contrastar noticias. Sin embargo, un nuevo estudio publicado este mes por el investigador Kosta Jordanov, de Lenz Research, sugiere que estos sistemas aún presentan importantes limitaciones cuando se trata de evaluar hechos del mundo real.
La investigación analizó el comportamiento de cinco de los modelos más avanzados actualmente disponibles: GPT-5.4, Claude Opus 4.7, Gemini 3 Pro, Gemini 3 Pro con Search y Sonar Pro. Todos recibieron las mismas 1.000 afirmaciones reales enviadas por usuarios a una plataforma de fact-checking y debían clasificarlas en una de cuatro categorías: verdadero, mayormente verdadero, engañoso o falso, detalla Decrypt.
Los resultados mostraron que, en 672 de los 1.000 casos analizados, al menos uno de los modelos emitió una evaluación distinta a la mayoría. Más llamativo aún, en el 34% de las afirmaciones hubo desacuerdos considerados severos, donde una IA calificó una afirmación como verdadera mientras otra la clasificó directamente como falsa.
El problema no son las alucinaciones
Los investigadores subrayan que el hallazgo es diferente al fenómeno conocido como “alucinaciones”, donde una IA inventa información inexistente.
En este caso, los modelos no necesariamente estaban generando datos falsos, sino que simplemente no lograban ponerse de acuerdo sobre cómo interpretar o evaluar la misma afirmación. Según el estudio, esto revela una inconsistencia estructural en los sistemas actuales de IA cuando enfrentan información compleja o ambigua.
“La mayoría de estos casos probablemente no aparecen en ningún conjunto de entrenamiento acompañado de una respuesta oficial”, explica el informe. Al utilizar afirmaciones reales enviadas por usuarios, los investigadores evitaron los clásicos bancos de pruebas utilizados por las compañías tecnológicas, reduciendo la posibilidad de que los modelos estuvieran respondiendo preguntas memorizadas durante su entrenamiento.
Los modelos coinciden poco en los casos grises
Para medir el grado de consenso, el estudio utilizó una métrica estadística conocida como alfa de Krippendorff, que arrojó un resultado de 0,639 en una escala donde 1 representa acuerdo perfecto y 0 equivale a respuestas aleatorias.
Según los investigadores, este nivel indica que existe cierto patrón compartido entre los modelos, pero no el suficiente como para tratarlos como jueces intercambiables de la verdad. En términos académicos, valores inferiores a 0,8 suelen considerarse insuficientes para afirmar una alta consistencia.
Uno de los hallazgos más llamativos fue que las IA solo tendían a coincidir cuando las afirmaciones parecían claramente verdaderas o claramente falsas. De las 1.000 afirmaciones evaluadas, apenas 328 recibieron una evaluación idéntica por parte de los cinco modelos.
Además, solo cuatro afirmaciones obtuvieron un consenso unánime bajo la categoría “engañosa” y ninguna recibió una clasificación unánime como “mayormente verdadera”.
Los investigadores resumieron este fenómeno señalando que “el panel converge en los extremos, pero se fractura en los matices”.
Ejemplos de desacuerdos significativos
Entre los ejemplos citados en el estudio figura la afirmación de que “la cartera activa del Banco Mundial en Nigeria supera los USD $16.400 millones en 2025”.
GPT-5.4 consideró que la afirmación era “mayormente verdadera”, mientras que Gemini 3 Pro la calificó como “falsa” y Gemini 3 Pro con Search optó por la categoría “engañosa”.
Otro caso incluyó la afirmación de que “Donald Trump dijo que un ataque contra Irán fue pospuesto a petición de aliados del Golfo”. En esa ocasión, GPT-5.4 y Gemini 3 Pro respondieron que era falsa, Claude Opus la consideró mayormente verdadera y Gemini 3 Pro con Search concluyó que era verdadera.
Estos ejemplos ilustran cómo modelos altamente sofisticados pueden llegar a conclusiones completamente distintas a partir de una misma afirmación.
Crecen las dudas sobre el fact-checking automatizado
El estudio llega en un momento en que millones de personas recurren diariamente a herramientas de IA para verificar información, interpretar noticias o contrastar declaraciones públicas.
Si un usuario copia una afirmación de una noticia y la consulta simultáneamente a ChatGPT, Claude y Gemini, existe una probabilidad considerable de que reciba respuestas diferentes. La investigación plantea entonces una pregunta incómoda: ¿cómo determinar cuál de ellas es correcta?
Los autores enfatizan que el veredicto de la mayoría tampoco debe considerarse automáticamente la verdad absoluta. “La mayoría de modelos de frontera no constituye una fuente definitiva de verdad”, advierte el informe. En ocasiones, la posición minoritaria puede ser la correcta y el consenso puede estar equivocado.
Sin embargo, cuando los sistemas discrepan, necesariamente al menos uno de ellos está emitiendo una clasificación incorrecta bajo el esquema utilizado por el estudio.
Un desafío para el futuro de la IA
Los resultados también ponen en duda la forma en que las compañías de inteligencia artificial presentan los avances de sus modelos. Aunque las empresas suelen destacar mejoras constantes en pruebas estandarizadas y benchmarks, el estudio de Lenz Research sugiere que el desempeño en situaciones reales puede ser mucho menos consistente.
La investigación concluye que los sistemas actuales parecen desenvolverse mejor cuando deben evaluar afirmaciones claramente verdaderas o falsas, pero encuentran dificultades significativas en escenarios donde intervienen matices, contexto o interpretaciones parciales.
A medida que la IA se convierte en una herramienta cada vez más utilizada para verificar información, estos hallazgos sugieren que la supervisión humana continúa siendo un componente esencial para distinguir entre hechos, interpretaciones y errores potenciales de los modelos.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Empresas
Microsoft enfrenta indignación por amenaza legal contra investigador de seguridad
Empresas
Microsoft impulsa windows reactor y promete ui nativa en rust más ligera que c#
Estados Unidos
OpenAI lanza Rosalind Biodefense para reforzar la preparación ante amenazas biológicas
Criptomonedas