Un nuevo estudio académico comparó miles de ideas científicas humanas con propuestas generadas por modelos de lenguaje y encontró una brecha persistente: aunque los LLM producen ideas razonables, su repertorio creativo sigue siendo más estrecho y está sesgado hacia conectar y sintetizar trabajos previos.
***
- El análisis comparó 11.683 ideas humanas con generaciones de nueve familias de modelos, incluyendo Claude, Gemini, GPT, DeepSeek y Qwen.
- Los autores hallaron que los LLM se concentran de forma desproporcionada en ideas de tipo puente y métodos de síntesis o unificación.
- El estudio sugiere que la evaluación de la IA para investigación no debe centrarse solo en si una idea parece buena, sino en si su distribución se parece al gusto científico humano.
🧠📊 Estudio revela que la IA aún está lejos del criterio humano en la generación de ideas científicas.
Se compararon 11,683 ideas humanas con propuestas de modelos de lenguaje.
Los LLM tienden a producir ideas de síntesis excesivas y repetitivas.
Mientras que solo el 12% de… pic.twitter.com/POMLg4TY0c
— Diario฿itcoin (@DiarioBitcoin) July 5, 2026
La carrera por usar inteligencia artificial como asistente de investigación acaba de recibir una medición incómoda. Un nuevo trabajo concluye que los modelos de lenguaje ya pueden generar ideas científicas plausibles, pero todavía operan dentro de un rango creativo más estrecho que el de los investigadores humanos.
El hallazgo importa más de lo que parece a primera vista. En lugar de preguntar si una idea de IA suena novedosa o viable, los autores se enfocaron en otra cuestión: qué tipo de ideas produce una y otra vez un modelo cuando se le pide imaginar nuevas líneas de investigación.
Ese cambio de enfoque es central para entender el resultado. Una propuesta puede parecer coherente de forma aislada, pero aun así revelar un sesgo estructural si, al mirar miles de casos, repite siempre la misma forma de detectar problemas y construir contribuciones.
El estudio, titulado Measuring the Gap Between Human and LLM Research Ideas, fue elaborado por Ziyu Chen, Yilun Zhao y Arman Cohan, de Yale University y University of Chicago. Su conclusión principal es que existe una brecha de distribución persistente entre el “gusto” científico humano y el de los LLM actuales.
Para una audiencia acostumbrada a ver a la IA como copiloto en tareas complejas, la implicación es clara. Si estos sistemas se convierten en motores de lluvia de ideas, exploración bibliográfica o agentes científicos automatizados, también podrían arrastrar un sesgo repetitivo sobre qué tipo de investigación merece perseguirse.
Cómo midieron la distancia entre ideas humanas y de IA
Los autores diseñaron una tarea de ideación anclada en literatura previa. En cada caso, tomaron un paper real y reconstruyeron un pequeño conjunto de estudios relacionados que probablemente influyeron en su idea central.
Después pidieron a distintos modelos que generaran una nueva idea usando solo los títulos y resúmenes de esos trabajos previos. Así, la comparación no dependía de temas abiertos o preferencias arbitrarias, sino de un mismo contexto bibliográfico compartido entre humanos y máquinas.
La idea humana fue la del paper finalmente publicado. La idea del modelo fue una propuesta nueva, separada en dos partes: motivación y método.
El corpus final incluyó 11.683 ideas humanas válidas. De ellas, 5.994 provinieron de conferencias de aprendizaje automático como ICLR, ICML y NeurIPS entre 2023 y 2026, y 5.689 de Nature Communications entre 2023 y 2025, cubriendo 71 disciplinas científicas.
Para etiquetar cada idea, el equipo construyó una taxonomía de dos ejes. Uno clasifica el tipo de oportunidad de investigación, es decir, por qué vale la pena hacer el estudio; el otro describe el paradigma metodológico, o sea, cómo la propuesta convierte esa oportunidad en una contribución.
En el eje de oportunidad, las categorías finales fueron siete: contradicción o rompecabezas, brecha explicativa, desajuste de alcance, brecha de evidencia, oportunidad de puente, falla o riesgo, y cuello de botella de recursos. En el eje metodológico también quedaron siete: síntesis o unificación, relajación o extensión de alcance, robustificación, derivación formal, mapeo empírico, artefacto o sistema, y optimización o búsqueda.
La anotación a escala se hizo con un modelo automatizado validado frente a juicios humanos independientes. Según el paper, la concordancia media medida con kappa de Cohen fue de 0,84, 0,81 y 0,93 en las tres salidas auditadas, lo que dio al equipo confianza para usar el clasificador en toda la muestra.
La gran desviación: demasiadas ideas de puente y demasiada síntesis
El resultado más fuerte fue una concentración sistemática de los LLM alrededor de ideas tipo puente. Es decir, propuestas cuya motivación principal consiste en conectar literaturas, métodos o corrientes de evidencia previamente separadas.
Entre las ideas humanas, solo 12,1% cayó en esa categoría de oportunidad. En cambio, en los nueve modelos principales evaluados, la proporción osciló entre 47,1% y 64,2%.
La desviación se repitió en el eje metodológico. Apenas 5,1% de las ideas humanas utilizó la síntesis o unificación como método central, frente a un rango de 22,5% a 38,7% en los modelos.
Los autores no sostienen que sintetizar sea una mala contribución científica. El problema, según el estudio, es que los modelos convierten esa maniobra en una plantilla dominante, mientras las ideas humanas reparten mucho más su masa entre explicación, medición, riesgos, alcance, artefactos y optimización.
La diferencia también apareció en métricas de distribución. En ambas taxonomías, las ideas humanas mostraron una entropía normalizada superior a 0,92, señal de mayor diversidad. En los modelos, la entropía de oportunidades quedó entre 0,550 y 0,758, y la de métodos entre 0,723 y 0,879.
Incluso el modelo más cercano en el eje de oportunidades, Gemini-3.1-Pro, registró una distancia total de variación de 0,348 frente a la referencia humana. En términos prácticos, eso implica que más de un tercio de la masa de la distribución tendría que moverse para alinearse con el patrón humano.
En el eje metodológico, Claude-Sonnet-4.6 fue el más próximo. Aun así, su distancia total de variación fue de 0,211, lo que dejó claro que la brecha no desaparece ni siquiera en los mejores casos observados.
Qué modelos probaron y qué tan estable fue la brecha
La comparación principal incluyó nueve configuraciones de modelos. La lista estuvo formada por Claude-Sonnet-4.6, Gemini-3.1-Pro, GPT-OSS-20B, GPT-OSS-120B, GPT-5.4-mini, Qwen3-8B, Qwen3-32B, DeepSeek-V4-Flash y DeepSeek-V4-Pro.
El patrón de estrechamiento creativo se mantuvo a través de familias distintas. Eso sugiere que no se trata de una rareza de un solo proveedor, sino de una tendencia más amplia en la generación de ideas bajo este tipo de tarea controlada.
Cuando los autores separaron por dominios, la señal siguió allí. En machine learning, por ejemplo, el porcentaje humano de oportunidades tipo puente fue 14,0%, mientras los modelos se movieron entre 58,7% y 82,3% en sus variantes base.
En Nature Communications, donde el repertorio humano era diferente, el sesgo tampoco desapareció. La proporción humana de oportunidades puente fue 10,2%, frente a cifras de 24,3% a 54,2% según el modelo.
La abundancia de síntesis mostró algo parecido. En machine learning, las ideas humanas marcaron 6,6% en esa categoría metodológica, frente a 35,5% hasta 59,9% para los modelos base evaluados.
En el corpus de Nature Communications, las ideas humanas solo alcanzaron 3,4% en síntesis o unificación. Los modelos, otra vez, estuvieron muy por encima, con una banda de 8,8% a 19,5% en las versiones principales.
Otro dato relevante fue que un contexto más rico no resolvió el sesgo. En una prueba con 1.000 papers, reemplazar los resúmenes por síntesis generadas a partir del texto completo de los estudios previos empeoró las distancias frente a la referencia humana en Qwen3-8B y DeepSeek-V4-Flash.
Más pulidas que profundas: especificidad, boilerplate y pensamiento extendido
El trabajo también introdujo tres puntuaciones diagnósticas para entender mejor el estilo de las propuestas. Esas medidas fueron “surface stitching”, especificidad del cuello de botella y boilerplate, esta última asociada a formulaciones más genéricas o de plantilla.
En general, los modelos recibieron peores notas que los humanos en especificidad y mejores puntajes de boilerplate, es decir, más generalidad. El deterioro fue particularmente visible en Qwen3-8B y Qwen3-32B, que además mostraron más casos de combinación superficial entre trabajos previos.
Claude-Sonnet-4.6 fue una excepción parcial en esos indicadores. Presentó una especificidad del cuello de botella de 2,60 frente a 2,56 en humanos, y un boilerplate de 0,37 frente a 0,48, aunque siguió desplazado en la distribución general de tipos de ideas.
Eso llevó a una conclusión matizada. La brecha no parece reducirse a una cuestión de baja calidad textual, porque incluso propuestas bien redactadas y específicas pueden quedar atrapadas en un abanico más estrecho de movimientos científicos.
Los autores también probaron si el razonamiento extendido podía ayudar. La respuesta, al menos en sus pruebas, fue negativa.
En Qwen3-8B, activar el modo de pensamiento elevó las oportunidades puente de 49,7% a 71,1% y la síntesis explícita de 38,7% a 52,2%. Al mismo tiempo, la entropía de oportunidades cayó de 0,658 a 0,481 y la distancia respecto a humanos subió de 0,382 a 0,590.
DeepSeek-V4-Flash mostró la misma dirección, aunque menos extrema. Las oportunidades puente crecieron de 52,2% a 59,1%, la síntesis pasó de 22,5% a 30,7% y aumentaron las distancias frente a la distribución humana en ambos ejes.
El paper interpreta ese efecto como un afilamiento de la plantilla preferida del modelo. En lugar de ampliar el repertorio creativo, el razonamiento adicional pareció reforzar la inclinación a proponer conexiones seguras y operaciones de integración.
Por qué ocurre: una receta repetida frente a intervenciones más locales
Para profundizar en el mecanismo, el equipo realizó análisis adicionales sobre ideas humanas y dos fuentes representativas de modelos: Qwen3-8B y DeepSeek-V4-Flash. El resultado fue una diferencia clara en las “operaciones” que organizan las propuestas.
En los modelos predominó la familia de verbos como integrar, unificar, combinar, fusionar o adaptar. El caso más fuerte fue “integrate”, que apareció 7.994 veces en salidas de modelos, equivalentes a 34,2%, frente a solo 275 veces en ideas humanas, es decir 2,35%.
También estuvieron sobrerrepresentadas operaciones como “unify”, con 8,2% en modelos frente a 1,9% en humanos, además de “design”, “merge” y “adapt”. Todas ellas reforzaron la imagen de una receta segura basada en tomar conceptos frecuentes y enlazarlos.
Del lado humano, el repertorio fue distinto. Las ideas publicadas mostraron más operaciones locales como reemplazar, desacoplar y formalizar.
Según el estudio, “replace” representó 9,13% de las operaciones humanas, contra solo 0,92% en modelos. “Decouple” llegó a 2,33% en humanos y apenas 0,21% en IA, con clústeres dominados por humanos en 83,3% y 85,4%, respectivamente.
Además, los clústeres humanos asociados a esas intervenciones locales exhibieron mayor especificidad del cuello de botella, con 2,61 y 2,70, y menor boilerplate, con 0,60 y 0,51. En otras palabras, no solo eran distintos, sino también más anclados en mecanismos concretos.
El análisis de representaciones mostró otro rasgo llamativo. Las ideas generadas por Qwen3-8B y DeepSeek-V4-Flash para un mismo paper fueron más parecidas entre sí que cualquiera de ellas respecto a la idea humana correspondiente.
La similitud coseno entre ambos modelos alcanzó 0,8316. En comparación, las parejas humano-Qwen y humano-DeepSeek marcaron 0,7242 y 0,7829, lo que sugiere una convergencia entre familias distintas hacia patrones de generación similares.
En la parte semántica, los conceptos más enriquecidos del lado de los modelos fueron motivos técnicos reutilizables, como integración multi-ómica, diffusion policy, generación multimodal, in-context learning, adaptación en tiempo de prueba, cuantización y agentes LLM. Del lado humano aparecieron clústeres más locales, como trayectorias, ligandos, tokenización, equivarianza, información mutua, ruteo, prototipos y verificación.
Qué significa esto para la IA aplicada a ciencia y a industrias intensivas en conocimiento
La lección del estudio va más allá del debate académico sobre papers. También toca la discusión más amplia sobre IA aplicada a descubrimiento científico, automatización de investigación y sistemas que ayudan a detectar oportunidades en mercados tecnológicos.
En sectores como cripto, inteligencia artificial, biotecnología o materiales, muchas decisiones de inversión y desarrollo parten de identificar qué hueco existe entre soluciones previas. Si un sistema de IA tiende a ver casi siempre “puentes” donde un humano vería fallas, mediciones pendientes o componentes a reemplazar, eso puede sesgar la agenda de innovación.
Los autores sostienen que la ideación debe evaluarse como un problema de alineación distributiva. No basta con pedir propuestas fluidas o razonables, porque la cuestión crítica es si el sistema diversifica de verdad la forma de encontrar problemas y construir soluciones.
En esa lógica, un asistente útil no sería solo el que genera muchas ideas. Sería el que logra preservar la escala y la velocidad de los LLM sin caer siempre en la misma plantilla de síntesis elegante.
El trabajo también reconoce límites importantes. La muestra fue amplia, pero estuvo centrada en STEM; además, la reconstrucción del contexto bibliográfico no captura experiencia tácita, intentos fallidos, colaboraciones o retroalimentación de revisores que influyen en la investigación real.
Los autores añaden que la taxonomía simplifica ideas complejas en etiquetas discretas, y que futuros sistemas interactivos, agentes especializados o flujos con recuperación intensiva podrían reducir parte de la brecha observada. Aun así, la evidencia presentada apunta a una conclusión firme: los LLM actuales pueden ayudar a investigar, pero todavía no piensan como una comunidad científica humana en toda su diversidad.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
IA
Google Gemini 3.5 Pro apuntaría a una ventana de contexto de 2 millones de tokens
IA
TinyRouter: un router de IA de 10K parámetros iguala y supera a modelos únicos por menos de USD $21
IA
Jürgen Schmidhuber afirma que la conciencia en IA ya existe como subproducto de la compresión de datos
Hardware