Por Canuto  

Un nuevo benchmark desarrollado por OpenAI y Tacit Labs intenta responder una pregunta clave para la era de la IA científica: ¿pueden los modelos resolver trabajo biomédico real y no solo preguntas de memoria? La respuesta, por ahora, es mixta. LifeSciBench muestra avances en razonamiento y comunicación, pero también deja claro que incluso los sistemas más avanzados siguen fallando con frecuencia cuando deben analizar archivos complejos, producir resultados exactos y tomar decisiones útiles para investigación aplicada.
***

  • LifeSciBench reúne 750 tareas de nivel experto creadas por 173 científicos para evaluar trabajo real en ciencias de la vida.
  • GPT-Rosalind obtuvo el mejor resultado general, con puntuación normalizada de 0,576 y tasa de aprobación de 36,1%.
  • Más de la mitad de las tareas tuvieron una mejor tasa de aprobación inferior a 50%, lo que evidencia amplio margen de mejora.


La inteligencia artificial lleva meses ganando terreno en programación, redacción y análisis general. Sin embargo, cuando se la traslada a entornos donde un error puede arruinar un experimento, un ensayo clínico o una decisión de desarrollo farmacéutico, la exigencia sube de forma drástica.

Ese es el punto de partida de LifeSciBench: Evaluating Language Models on Realistic, Expert-Level Tasks in the Life Sciences, trabajo firmado por Amelia Liu, Andrew Ho, Anne Marie Droste, David Martin, Edmund Wong, Edward Zhou, Isabelle Zhou, Joshua Park, Joy Jiao, Katie-Rose Skelly, Kenny Kim, Kevin Rao, Masatoshi Uehara, Max Marion, Nicole Fitzgerald, Rachel Dias, Suyash Shringarpure, Yuan Yuan y Yunyun Wang.

El estudio presenta un benchmark de 750 tareas diseñadas para medir si los modelos de lenguaje pueden desenvolverse en trabajo científico realista dentro de las ciencias de la vida. La premisa central es que la mayoría de los exámenes existentes en biología miden memoria factual o habilidades muy acotadas, pero no reflejan la ambigüedad, el juicio experto y la complejidad operativa del trabajo profesional.

Para una audiencia interesada en IA, mercados e infraestructura tecnológica, el hallazgo importa por una razón simple. Si los modelos aspiran a convertirse en herramientas críticas para industrias de alto valor, necesitan demostrar confiabilidad fuera de demos impresionantes y tareas limpias.

La conclusión general del estudio es sobria. Hay progreso visible, pero el campo sigue lejos de contar con modelos que puedan asumir de forma consistente tareas de investigación biomédica con estándares cercanos a los de un especialista humano.

Qué es LifeSciBench y por qué busca cambiar la forma de medir a la IA científica

LifeSciBench fue creado para cubrir un vacío claro en evaluación. Según el documento, no existía un benchmark en ciencias de la vida que combinara suficiente amplitud temática con suficiente profundidad operativa para medir competencia en escenarios profesionales reales.

El conjunto abarca siete flujos de trabajo científicos y siete dominios biológicos. Entre ellos figuran manejo de evidencia, análisis, diseño y optimización, razonamiento científico, validación y operaciones, traducción clínica y comunicación científica.

Las tareas no fueron pensadas como preguntas de examen tradicionales. Se redactaron como problemas abiertos, similares a los que un científico podría plantearle a un colega o asistente técnico durante una investigación aplicada.

En muchos casos, el modelo no solo debe responder una pregunta. También debe interpretar imágenes, documentos, secuencias genéticas, archivos de estructura molecular, tablas, figuras experimentales o enlaces web provistos en el contexto.

Ese diseño intenta capturar cuatro rasgos del trabajo científico real. El benchmark enfatiza artefactos complejos, ambigüedad situacional, realismo en los flujos de trabajo y una construcción respaldada por especialistas con revisión independiente.

El estudio precisa que 53% de las tareas requieren uno o más artefactos de apoyo. Además, 79% exige múltiples pasos de razonamiento o toma de decisiones, con un promedio de cuatro pasos por tarea.

La estructura de evaluación también se aleja del modelo binario de correcto o incorrecto. Cada problema incluye una rúbrica detallada escrita por expertos, y el benchmark suma más de 19.020 criterios de evaluación, con un promedio de 25 por tarea.

Ese punto es importante porque, en ciencia, una respuesta útil no depende solo del resultado final. También importa si el modelo usó la evidencia correcta, si justificó sus supuestos, si respetó restricciones metodológicas y si comunicó el grado adecuado de incertidumbre.

El trabajo ofrece ejemplos de tareas que ilustran bien la ambición del proyecto. Uno de ellos exige analizar datos espaciales de transcriptómica en cáncer cervical, clasificar regiones tumorales y no tumorales, e inferir posibles terapias dirigidas con métricas como prevalencia, odds ratio y especificidad.

Otros ejemplos incluyen diseñar un ensamblaje de clonación Golden Gate sin introducir aminoácidos extra, reconstruir la función de un plásmido a partir de lecturas de secuenciación y criticar un análisis de metilación de ADN en un estudio sobre NASH.

Cómo fue construido el benchmark y qué tan sólido es su respaldo experto

La base del benchmark descansa en una red amplia de especialistas. En total participaron 173 científicos expertos en la redacción de tareas, seleccionados para cubrir biología molecular, bioquímica, neurociencia, inmunología, farmacología, química medicinal, biología computacional y otras áreas afines.

Los autores exigieron que esos contribuidores tuvieran doctorado o equivalente en disciplinas relevantes y al menos dos años de experiencia como científicos en la industria biotecnológica o farmacéutica. La idea era evitar ejercicios de manual y acercarse a problemas propios de investigación aplicada.

Cada tarea pasó por múltiples rondas de revisión. El documento señala que las aceptadas promediaron seis ciclos automatizados de revisión autodirigida y completaron al menos dos rondas de revisión experta.

La supervisión se concentró en cuatro áreas. Los revisores verificaron consistencia entre pregunta y rúbrica, ambición científica, validez factual y calidad de redacción, formato y gramática.

Además, el criterio de aceptación no dependía de intuiciones vagas. Las revisiones se anclaron en una respuesta verificable o en consenso experto fuerte, con al menos 90% de acuerdo entre especialistas del dominio.

La validación externa también fue amplia. Participaron 453 revisores independientes, distintos de los autores de tareas, y 97% contaba con doctorado o grado equivalente.

Ese grupo tenía en promedio 12 años de experiencia en su campo y 14 publicaciones revisadas por pares. A su vez, 88% reportó haber recibido al menos un premio o fellowship.

Los revisores evaluaron si las tareas reflejaban relevancia para el mundo real, alineación con razonamiento y habilidades de dominio, base científica apropiada y utilidad global para medir desempeño de modelos. En las cuatro dimensiones, el benchmark obtuvo calificaciones muy altas.

En relevancia para el mundo real, 86,8% dijo estar muy de acuerdo y 98,3% estuvo de acuerdo en términos generales. En alineación entre razonamiento y habilidad científica, 86,4% estuvo muy de acuerdo y 98,1% mostró acuerdo total o parcial.

Para fundamento científico, 77,1% estuvo muy de acuerdo y 96,5% coincidió de forma global. En utilidad general como ítem de evaluación, 79,1% marcó muy de acuerdo y 96,6% mostró acuerdo total.

Qué modelos fueron evaluados y quién salió mejor parado

El estudio comparó cinco modelos de frontera y especializados por dominio. La lista incluye GPT-5.4, GPT-5.5, GPT-Rosalind, Gemini 3.1 Pro y Grok 4.3.

Todos fueron sometidos a un formato de evaluación de una sola interacción. Cada sistema recibía la consigna y los artefactos asociados una sola vez, sin aclaraciones posteriores, sin correcciones y sin iteración conversacional.

Ese enfoque no replica por completo el uso real de los modelos, donde suele haber diálogo y refinamiento. Aun así, el trabajo sostiene que el formato de un turno permite aislar el rendimiento de cada tarea manteniendo complejidad suficiente en contexto, materiales y expectativa de respuesta.

La principal métrica fue la puntuación normalizada de rúbrica. Para cada respuesta, se dividían los puntos obtenidos entre el total posible de esa tarea, con peso igual para cada problema.

La segunda métrica fue la tasa de aprobación por tarea. En este caso, se consideró aprobada una respuesta cuando alcanzaba o superaba el umbral de 70% de la rúbrica específica.

El mejor resultado global fue para GPT-Rosalind. El modelo logró una puntuación media normalizada de 0,576 y una tasa de aprobación de 36,1%.

Detrás quedaron GPT-5.5 con 0,519 y 25,7%, Gemini 3.1 Pro con 0,515 y 23,6%, GPT-5.4 con 0,479 y 20,7%, y Grok 4.3 con 0,399 y 13,0%. La diferencia entre el líder y el resto fue visible, aunque no suficiente para hablar de dominio total.

GPT-Rosalind también encabezó 386 de las 750 tareas cuando se mira el mejor promedio por problema. Eso lo convierte en el sistema más fuerte del lote, pero no en uno cercano a saturar el benchmark.

El propio estudio subraya ese límite. Ningún modelo logró aprobar 171 tareas, equivalentes a 22,8% del total.

Más aún, 261 tareas, es decir 34,8% del benchmark, tuvieron una mejor tasa de aprobación inferior a 20%. La lectura es clara: incluso los modelos punteros siguen fallando con mucha frecuencia en trabajo biomédico realista.

Dónde brillan los modelos y en qué áreas siguen mostrando debilidad

LifeSciBench no dibuja un panorama uniforme. Los sistemas muestran más solvencia cuando el problema exige síntesis estructurada de evidencia y juicio experto en contextos relativamente acotados.

En esa línea, la categoría de Translation fue de las mejor resueltas por los modelos GPT. Allí se evalúa la capacidad de conectar evidencia preclínica o biológica con relevancia clínica, seguridad, biomarcadores, diseño de ensayos y otros factores translacionales.

GPT-Rosalind alcanzó en Translation una puntuación media de 0,712. También destacó en Scientific Communication, donde obtuvo 0,718 en tareas de explicación, resumen o comunicación científica para audiencias específicas.

Los autores piden cautela con esa última cifra porque se trata de una categoría pequeña. Aun así, el patrón coincide con el análisis de rúbricas, donde las mayores ventajas de GPT-Rosalind frente a GPT-5.5 aparecieron en explicación de mecanismos, diseño experimental y crítica o validación.

En concreto, el estudio reporta mejoras de +0,086 en explicación de mecanismos, +0,079 en diseño de experimentos y +0,078 en crítica o validación. Son áreas donde la IA parece estar evolucionando más rápido en razonamiento general y argumentación útil.

Pero la otra cara del benchmark es más dura. El rendimiento cae cuando el sistema debe trabajar con artefactos pesados, extraer datos de archivos complejos o cumplir restricciones técnicas estrictas.

GPT-Rosalind registró una tasa de aprobación de 44,5% en tareas solo de texto. Esa cifra cayó a 28,6% cuando las tareas requerían artefactos adjuntos.

GPT-5.5 mostró el mismo patrón. Pasó de 29,5% en tareas textuales a 22,2% cuando debía usar archivos adjuntos.

El benchmark también identifica problemas severos en salidas exactas, como secuencias genómicas, estructuras químicas o construcciones específicas. En los criterios de secuencia y estructura, el éxito osciló entre 46,9% para GPT-Rosalind y 18,0% para Grok.

Esto sugiere que el progreso reciente se concentra más en razonamiento de alto nivel que en precisión operativa de formatos especializados. Para laboratorios y empresas biotecnológicas, esa distinción es decisiva.

El gran mensaje del benchmark: hay progreso, pero la IA aún no está lista para sustituir criterio científico experto

Una de las observaciones más interesantes del trabajo es que muchos modelos logran avances parciales sin completar la tarea de forma satisfactoria. No se trata de ignorancia total, sino de respuestas plausibles que se quedan cortas en un punto crítico.

En el caso de GPT-Rosalind, hubo 109 tareas con tasa de aprobación inferior a 20% en las que, aun así, el modelo recibió al menos 50% de la puntuación de rúbrica. Esa brecha muestra una capacidad parcial real, pero también una confiabilidad insuficiente.

Según el análisis, esos fallos suelen aparecer cuando el modelo omite una restricción exigida, usa evidencia incorrecta, deja una cuenta incompleta o no convierte su razonamiento intermedio en una decisión operativamente útil. En ciencia aplicada, ese tipo de error puede bastar para invalidar la respuesta.

La distribución general de headroom también es reveladora. Un total de 422 tareas, equivalentes a 56,3%, tuvo una mejor tasa de aprobación menor a 50%.

Dentro de ese grupo, 171 tareas tuvieron 0% de aprobación por cualquier modelo evaluado. Además, otras 90 quedaron entre más de 0% y menos de 20%, mientras 161 se ubicaron entre 20% y 50%.

Solo 266 tareas, que representan 35,5% del benchmark, alcanzaron una mejor tasa de aprobación de al menos 70%. La saturación, por ahora, está lejos.

Las áreas más duras dentro del segmento de menos de 20% fueron Design, Optimization, & Prediction y Analysis. Juntas concentraron 60,9% de las tareas en ese rango de mayor dificultad.

Para la industria de IA, el estudio deja un mensaje doble. Por un lado, confirma que los modelos ya ofrecen valor en síntesis científica, interpretación experta y apoyo discursivo.

Por otro, recuerda que la frontera comercial más rentable no depende solo de respuestas elegantes. Depende de confiabilidad, trazabilidad y exactitud cuando el sistema se enfrenta a archivos reales, decisiones ambiguas y formatos donde un carácter incorrecto cambia todo.

Los autores también reconocen límites metodológicos. LifeSciBench no mide impacto en entornos de investigación en vivo y usa un esquema de una sola interacción, cuando la práctica diaria suele ser multi-turno y colaborativa.

Aun con esas salvedades, el benchmark ofrece una radiografía valiosa del momento actual. La IA científica ya supera la fase de simple trivia biológica, pero todavía no alcanza el umbral de robustez que exigiría una integración confiable en investigación biomédica de alta complejidad.

Para un ecosistema acostumbrado a promesas exuberantes en IA, ese resultado funciona como correctivo. El avance es real, pero la distancia entre parecer competente y ser operacionalmente confiable sigue siendo amplia.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín