OpenAI presenta GeneBench-Pro para medir si la IA puede razonar como un científico en biología

𝕏

Hace 1 hora

Por Canuto

OpenAI presentó GeneBench-Pro, un benchmark de nivel investigativo diseñado para medir si los agentes de IA pueden desenvolverse en uno de los retos más difíciles de la ciencia moderna: analizar datos biológicos ambiguos, iterar hipótesis y tomar decisiones con criterio. El anuncio muestra avances relevantes, pero también deja claro que incluso los mejores modelos aún están lejos de reemplazar a expertos humanos en biología computacional.
***

GeneBench-Pro reúne 129 problemas en 10 dominios y 21 subdominios de biología computacional, desde genética estadística hasta genómica del cáncer.
GPT-5.6 Sol logró una tasa de aprobación de 28,7%, o 31,5% con modo Pro, frente a menos de 5% que obtuvo GPT-5 en el GeneBench original.
OpenAI sostiene que el benchmark mide “gusto de investigación”, es decir, la capacidad de decidir qué análisis hacer, revisar supuestos y saber cuándo una conclusión es suficiente.

OpenAI presentó Introducing GeneBench-Pro | OpenAI, un nuevo benchmark orientado a investigación que busca medir si los agentes de inteligencia artificial pueden manejar la ambigüedad, el análisis iterativo y las decisiones de alto impacto propias de la biología computacional moderna.

La propuesta apunta a una limitación cada vez más visible en la IA aplicada a ciencia: no basta con recordar hechos o ejecutar flujos de trabajo predefinidos. En investigación real, los modelos también deben decidir si un patrón es biología o ruido, si los datos responden la pregunta planteada y cómo cada resultado cambia el siguiente paso.

Ese enfoque vuelve relevante el anuncio más allá del ámbito biomédico. Para quienes siguen el desarrollo de agentes de IA en finanzas, blockchain o automatización empresarial, el mensaje es claro: el nuevo cuello de botella no es solo ejecutar tareas, sino razonar bajo incertidumbre con criterio experto.

OpenAI describe GeneBench-Pro como una ampliación del benchmark GeneBench, ahora con tareas más difíciles y realistas en genómica, biología cuantitativa y medicina translacional. La meta es capturar la complejidad, la naturaleza iterativa y la ambigüedad que dominan la investigación científica en biología computacional.

Según la empresa, existen pocas evaluaciones convincentes de las decisiones de juicio a nivel de sistema que vuelven difícil la investigación computacional del mundo real. Allí entran problemas como revisar supuestos, elegir el camino analítico correcto y saber cuándo un resultado ya está listo para sustentar una decisión.

Qué mide GeneBench-Pro y por qué OpenAI cree que faltaba este tipo de evaluación

Dentro del benchmark, OpenAI define el concepto de “gusto de investigación” como las cadenas de decisiones que moldean un análisis. Eso incluye decidir qué preguntas pueden sostener los datos, cómo ciertos diagnósticos tempranos deben cambiar el modelo o el estimando y cuándo conviene revisar un plan inicial.

Cada problema entrega al modelo un conjunto de datos realistas y desordenados, un breve contexto experimental y un estimando objetivo vinculado a una decisión posterior. Para responder correctamente, el agente debe explorar datos, elegir un enfoque analítico apropiado, experimentar de forma iterativa y emitir una respuesta final.

La lógica del benchmark es especialmente importante porque intenta medir habilidades difíciles de formalizar. Justamente por eso, también son capacidades difíciles de evaluar con rigor, incluso cuando sus debilidades empiezan a limitar el rendimiento total de los sistemas de IA.

OpenAI sostiene que GeneBench-Pro fue diseñado para medir precisamente esas capacidades de alto nivel. No se trata solo de comprobar si un modelo conoce bioinformática o sabe programar, sino de verificar si puede razonar como un investigador frente a datos confusos e imperfectos.

Ese matiz importa en el contexto actual de la IA. Muchas herramientas rinden bien en benchmarks acotados, pero pierden solidez cuando deben unir observación, criterio metodológico y toma de decisiones, una combinación esencial en ciencia y también en otras industrias intensivas en datos.

Cómo fue construido el benchmark y qué tan amplio es su alcance científico

OpenAI explicó que el costo de generar datos biológicos, como la secuenciación del genoma, ha caído con fuerza. Por eso, algunos investigadores sostienen que el factor limitante ya no es recolectar muestras, sino el cómputo y el análisis posterior.

GeneBench-Pro fue creado para evaluar el progreso frente a ese cuello de botella. El conjunto incluye 129 preguntas que cubren un rango amplio de configuraciones y métodos en biología computacional.

El atlas de dominios abarca 10 dominios y 21 subdominios. Entre ellos figuran genética estadística con n=17, genética de poblaciones con n=21, genética cuantitativa con n=17 y ómicas regulatorias con n=17.

También incorpora genómica funcional con n=9, proteómica con n=7, clínica, PGx y diagnósticos con n=26, genómica del cáncer con n=10, genómica microbiana con n=3 y genética forense con n=2.

En el desglose por subdominios aparecen áreas como asociación y corrección con 6 problemas, mapeo causal con 6, heredabilidad y arquitectura con 2, pedigrí, IBD y agrupamiento con 3, y selección y mutación con 7.

La lista sigue con admixture y aDNA con 6, historia y genealogías con 8, arquitectura de rasgos y varianza con 6, efectos familiares, sociales y de transmisión con 6, y predicción poligénica y selección genómica con 5.

Además, incluye QTLs regulatorios y ASE con 8, estructura del transcriptoma con 5, contexto espacial y de cromatina con 4, genómica funcional con 9 y proteómica y biomarcadores con 7.

En el frente clínico, el benchmark cubre interpretación de variantes clínicas y penetrancia con 11, farmacogenómica y respuesta al tratamiento con 8, genética prenatal, reproductiva y de riesgo clínico con 7, genómica somática del cáncer y biopsia líquida con 10, genómica microbiana y metagenómica con 3 y genética forense con 2.

OpenAI añadió que publicó abiertamente 10 preguntas representativas en Hugging Face, junto con una interfaz web interactiva para recorrerlas. También adelantó que entregará un subconjunto de 50 preguntas a Análisis Artificial para una evaluación independiente de terceros en el futuro próximo.

Por qué OpenAI recurrió a problemas sintéticos y revisión externa

Uno de los problemas típicos en benchmarks de biología a largo plazo es que muchos análisis complejos pueden tener más de un camino razonable. En esos casos, un agente puede elegir una ruta justificable distinta a la del autor del benchmark y aun así estar conceptualmente en lo correcto.

El problema inverso también puede ocurrir. Si una tarea es demasiado insensible desde el punto de vista numérico, un agente podría cometer errores analíticos serios y de todos modos llegar a un resultado aceptable.

Para evitar esos fallos, OpenAI afirma que cada problema de GeneBench-Pro fue construido sintéticamente. La organización asegura conocer la estructura causal completa y simular directamente el proceso generador de datos.

Ese diseño, según la empresa, permite ajustar la complejidad del problema, asegurar que decisiones analíticas subjetivas pero razonables produzcan resultados aceptados y verificar, mediante estudios de ablación, que análisis plausibles pero incorrectos efectivamente fallen.

La compañía añadió que auditó borradores de problemas a través de análisis detallados de trazas para detectar fugas de información y rutas de solución no deseadas. Con ello, dice tener mayor confianza en que acertar depende del camino analítico correcto y no de atajos o coincidencias arbitrarias.

Como parte del proceso, OpenAI envió 82 de las 129 preguntas a expertos externos del dominio. Participaron estudiantes de posgrado, investigadores postdoctorales, científicos de la industria y profesores.

Esos revisores evaluaron el realismo de cada problema, si la respuesta objetivo podía identificarse y si los métodos y estimadores eran apropiados. Sus comentarios fueron utilizados para mejorar los casos incluidos en el benchmark.

Alexander Strudwick Young, profesor asistente en genética humana en UCLA, afirmó que los problemas que revisó habrían sido desafiantes incluso para un estudiante de posgrado sin retroalimentación iterada de un supervisor experimentado. También señaló que los datos contenían problemas técnicos y de control de calidad que exigían un análisis reflexivo y atento a peligros potenciales.

Jennifer Grundman, candidata a doctorado en genética humana en UCLA, comentó que, aunque los modelos actuales no ejecuten de forma confiable análisis independientes de principio a fin, los que se desempeñan bien en GeneBench-Pro sí podrían ayudar a investigadores a determinar flujos de trabajo correctos y explorar datos. A su juicio, eso podría mejorar de forma importante la velocidad, exhaustividad y reproducibilidad de la investigación.

Cómo se evalúan los modelos y qué tipo de tareas plantea el benchmark

Cada problema de GeneBench-Pro es un análisis científico autosuficiente. Los agentes reciben acceso a un espacio de trabajo aislado con un aviso breve, archivos de datos y un conjunto estándar de bioinformática que incluye Python, bibliotecas de cómputo científico y paquetes básicos de genómica como PLINK 2.0.

OpenAI aclara, sin embargo, que las preguntas no requieren herramientas específicas del dominio. El énfasis está puesto en la capacidad del modelo para estructurar el análisis y escoger métodos válidos, más que en memorizar un software particular.

Uno de los ejemplos presentados es una tarea sobre decisión de beneficio-riesgo guiada por variantes estructurales para terapia tumoral. El caso pide estimar, para tumores con activación mediada por el objetivo TXR1 impulsada por SV en el tiempo cero, el efecto marginal de la terapia TXR1 frente a terapia sistémica no-TXR1 sobre el beneficio clínico a la semana 16.

La misma pregunta exige estimar el riesgo de toxicidad o discontinuación limitante del tratamiento a 8 semanas bajo TXR1i en la misma población objetivo. Luego se debe informar la utilidad clínica neta igual a diferencia de beneficio-riesgo en puntos porcentuales menos 0,35 por el riesgo de toxicidad en puntos porcentuales.

El sistema también pide elegir therapy_class_code 1 si TXR1i tiene utilidad neta positiva y 0 en caso contrario. La respuesta final debe devolverse exactamente como un objeto JSON, sin texto adicional.

OpenAI sostiene que, al controlar todo el proceso de generación de datos, puede calificar la corrección de manera determinista frente a objetivos conocidos. Según la empresa, eso evita la variabilidad derivada de las preferencias del evaluador y de efectos de verbosidad presentes en evaluaciones tradicionales basadas en rúbricas.

Cada problema viene acompañado de metadatos detallados, incluida la estructura de análisis prevista, archivos adjuntos, un estudio de caso de varias páginas y resultados de revisión de expertos. Esa capa documental intenta convertir el benchmark en una herramienta útil tanto para evaluación como para diagnóstico de fallos.

Resultados: GPT-5.6 Sol mejora con fuerza, pero sigue lejos de nivel experto

En resultados, OpenAI indicó que su modelo más fuerte, GPT-5.6 Sol, alcanzó una tasa de aprobación de 28,7% en el nivel más alto de razonamiento. Con el modo Pro activado, esa cifra sube a 31,5%.

La comparación histórica es relevante. Cuando OpenAI comenzó a construir el GeneBench original, su mejor modelo de frontera, GPT-5, obtuvo menos de 5%.

La empresa interpreta ese salto como evidencia de que los modelos de frontera están mejorando con rapidez, incluso en formas menos tangibles de razonamiento científico a nivel de sistemas. A ese ritmo, añade, el benchmark podría quedar saturado hacia finales de año.

Los resultados también muestran el impacto de escalar el tiempo de cómputo en inferencia. En el nivel más bajo de razonamiento, GPT-5.6 Sol solo logra una tasa de aprobación de un solo dígito.

En el nivel más alto de razonamiento, GPT-5.6 Sol resuelve casi seis veces más preguntas que GPT-5.2 usando aproximadamente dos tercios de los tokens. Eso sugiere mejoras no solo en capacidad, sino también en eficiencia relativa bajo ciertas configuraciones.

OpenAI afirmó además que las comparaciones entre familias de modelos sugieren que los sistemas GPT son de los más fuertes en razonamiento científico de alto nivel bajo incertidumbre cuantitativa. Según la empresa, la brecha entre GPT-5.6, GPT-5.5 y modelos de código abierto líderes como GLM 5.2 es mayor a la que esperarían extrapolando desde benchmarks de programación.

Ese patrón, siempre según OpenAI, indicaría que los modelos de código abierto están más especializados en codificación que en una capacidad de razonamiento más amplia. La empresa añadió un dato llamativo: utilizó modelos GPT de frontera para evaluar y reforzar problemas durante el desarrollo, por lo que sospechaba que GeneBench-Pro podría sesgarse en contra de GPT frente a otras familias.

Sin embargo, sostiene que los modelos competidores, en el mejor de los casos, igualaron el rendimiento del modelo GPT correspondiente al momento del lanzamiento y tendieron a quedarse considerablemente atrás. Aun así, la propia OpenAI reconoce que resolver menos de un tercio de los problemas deja un amplio margen para mejorar.

Lo que revelan los fallos de la IA y por qué esto importa para ciencia e industria

OpenAI destacó que los revisores estimaron en una encuesta que un problema típico de GeneBench-Pro tomaría entre 20 y 40 horas a un experto humano. A un valor conservador de USD $200 por hora, eso ubica el costo del trabajo humano por problema en miles de dólares.

Frente a eso, los costos de inferencia de los agentes actuales serían de apenas varios dólares por problema. La empresa admite que hoy son demasiado poco confiables para reemplazar a especialistas, pero subraya que la brecha de costos es tan grande que incluso una automatización parcial podría generar valor económico y científico.

Cyrillus Tan, investigador postdoctoral en el Centro Genómico de Nueva York, dijo que el verdadero desafío no surge solo de la variedad de preguntas biológicas. Según explicó, la dificultad central proviene del análisis exploratorio de datos y del razonamiento sobre esos hallazgos, incluida la identificación de patrones y artefactos y la decisión de excluir o ajustar datos.

Tan añadió que revisar estas evaluaciones resalta cuán importantes son los contratos de solución claros para la resolución de problemas científicos basados en agentes. También advirtió que distintas redacciones de avisos o especificaciones de tareas pueden cambiar significativamente qué análisis parecen permitidos.

Lex Flagel, director de ciencia de datos en Gencove, comentó que las preguntas mezclaban conocimiento temático requerido, discrepancias en los datos y conocimiento de las herramientas analíticas adecuadas. A su juicio, la mayoría de los agentes tendió a fallar precisamente en las discrepancias e irregularidades de los datos.

OpenAI observa un patrón similar al contraste entre expertos humanos y novatos. Los expertos usan su experiencia para enmarcar el problema y adaptar el enfoque, mientras los novatos hacen observaciones parciales pero luchan por integrarlas en el contexto más amplio.

Uno de los ejemplos comparativos del documento trata sobre respuesta farmacogenómica de tiempo a evento con tratamiento variable en el tiempo. Allí, OpenAI contrasta un patrón atribuido a GPT-5.5, que usa un modelo de Cox convencional sin resolver la retroalimentación del confundidor del tratamiento, con un patrón de GPT-5.6 Sol que recurre a un modelo de Cox estructural marginal para nuevos usuarios con pesos de probabilidad inversa estabilizados.

En términos más amplios, la compañía argumenta que, si los agentes logran automatizar de forma confiable esta clase de análisis, podrían acelerar de manera notable el descubrimiento científico. Eso abarcaría selección de hipótesis, seguimiento de objetivos y el ciclo de iteración entre generación de datos y toma de decisiones.

La empresa remarca que la evidencia genética humana ya es central para priorizar objetivos y seguimiento translacional, porque los mecanismos con respaldo genético tienen mucha más probabilidad de desembocar en tratamientos aprobados. Al mismo tiempo, los costos de secuenciación siguen cayendo y los biobancos vinculan información molecular, fenotípica y clínica a una escala inédita.

En ese escenario, el límite ya no sería generar datos, sino convertir información en ideas accionables. GeneBench-Pro, en esa lectura, funciona como una primera tentativa seria para medir si la IA está desarrollando el juicio científico abstracto que hoy distingue a los investigadores experimentados.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	0,04%	$69,42 mmd
BTC	Bitcoin	2,33%	$35,62 mmd
USDC	USDC	0,01%	$11,81 mmd
ETH	Ethereum	2,63%	$10,75 mmd
SOL	Solana	4,88%	$3,55 mmd
XRP	XRP	1,42%	$1,6 mmd
BNB	BNB	0,68%	$1,3 mmd
USD1	World Liberty Financial USD	0,02%	$1,04 mmd
DOGE	Dogecoin	1,97%	$0,633 032 mmd
ADA	Cardano	5,51%	$0,556 524 mmd

M	MemeCore	67,45%	$1,11
JUP	Jupiter	13,55%	$0,236 075
VVV	Venice Token	13,28%	$14,28
MORPHO	Morpho	9,41%	$2,08
XLM	Stellar	8,76%	$0,198 754
ADA	Cardano	5,51%	$0,153 866
BCH	Bitcoin Cash	5,11%	$211,53
SPX	SPX6900	4,97%	$0,357 61
SOL	Solana	4,88%	$77,09
VIRTUAL	Virtuals Protocol	4,43%	$0,550 244

VELVET	Velvet	-12,14%	$1,43
STABLE	Stable	-11,96%	$0,033 905
LIT	Lighter	-6,05%	$1,82
WLD	Worldcoin	-5,33%	$0,390 719
PYTH	Pyth Network	-2,31%	$0,039 738
SEI	Sei	-1,95%	$0,047 244
SKY	Sky	-1,52%	$0,052 74
DEXE	DeXe	-1,23%	$22,84
HYPE	Hyperliquid	-1,05%	$64,09
PEPE	Pepe	-0,84%	$0,000 002

OpenAI presenta GeneBench-Pro para medir si la IA puede razonar como un científico en biología

Qué mide GeneBench-Pro y por qué OpenAI cree que faltaba este tipo de evaluación

Cómo fue construido el benchmark y qué tan amplio es su alcance científico

Por qué OpenAI recurrió a problemas sintéticos y revisión externa

Cómo se evalúan los modelos y qué tipo de tareas plantea el benchmark

Resultados: GPT-5.6 Sol mejora con fuerza, pero sigue lejos de nivel experto

Lo que revelan los fallos de la IA y por qué esto importa para ciencia e industria

Suscríbete a nuestro boletín

Artículos Relacionados

Alex Karp arremete contra OpenAI y Anthropic por el precio de los tokens de IA

Análisis FET: ¿tocó fondo Fetch.ai tras una caída del 94% desde su máximo histórico?

$VIRTUAL rebota un 3.66% en un mercado cauteloso: ¿se avecina una recuperación o es un espejismo?

Finanzas y tecnología pierden 28.000 empleos al mes mientras la IA acelera los recortes