Por Canuto  

Un estudio publicado en Science por investigadores de Harvard y Beth Israel Deaconess halló que un modelo de IA de OpenAI superó a médicos humanos en tareas clave de triaje y diagnóstico en salas de emergencia. El resultado no implica un reemplazo inmediato de los clínicos, pero sí plantea un giro de fondo para la medicina, con oportunidades, riesgos regulatorios y dudas sobre seguridad, sesgos y responsabilidad.

***

  • El modelo o1 de OpenAI acertó el diagnóstico exacto o muy cercano en 67% de 76 casos reales de urgencias, frente a 50% a 55% de los médicos.
  • Cuando hubo más información clínica disponible, la IA elevó su precisión a 82%, mientras los expertos humanos quedaron entre 70% y 79%.
  • Los autores del estudio insisten en que la IA no está lista para reemplazar médicos, sino para integrarse como herramienta de segunda opinión bajo supervisión rigurosa.

 


La inteligencia artificial (IA) acaba de anotar uno de sus avances más sensibles en el terreno de la salud. Un estudio publicado en Science encontró que un modelo de lenguaje de última generación superó a médicos humanos en varias tareas clínicas de urgencias, incluyendo triaje temprano, elecciones diagnósticas y definición de los siguientes pasos en la atención.

La investigación fue realizada por científicos de la Facultad de Medicina de Harvard y del centro médico Beth Israel Deaconess de Boston. El trabajo comparó a un sistema de IA con cientos de respuestas médicas humanas, tanto en casos clínicos estandarizados como en situaciones reales de sala de emergencias.

El hallazgo central no es menor. En una fase del estudio enfocada en pacientes reales que llegaban a urgencias, la IA logró identificar el diagnóstico exacto o uno muy cercano en 67% de los casos. Los médicos humanos, frente a la misma información escrita, acertaron entre 50% y 55%.

La ventaja del sistema fue todavía más clara en el triaje inicial, que es el momento en el que deben tomarse decisiones rápidas con pocos datos disponibles. Ese punto resulta especialmente relevante porque los errores o retrasos al inicio de la atención pueden condicionar todo el manejo posterior de un paciente.

Según el estudio, el modelo probado fue el o1 de OpenAI, presentado en 2024. Los investigadores lo sometieron a seis experimentos diseñados para medir su desempeño en escenarios clínicos complejos, muchos de ellos marcados por datos fragmentados, notas incompletas y alta incertidumbre.

En términos simples, la IA demostró que puede razonar con documentación médica escrita de una forma que ya compite, y en algunos casos supera, a clínicos experimentados. Aun así, los autores insistieron en que el resultado no debe interpretarse como una señal de reemplazo automático del médico humano.

Qué encontró el estudio en pacientes reales de emergencia

Uno de los experimentos más importantes analizó a 76 pacientes que llegaron a la sala de emergencias de un hospital de Boston. Tanto la IA como pares de médicos humanos recibieron el mismo historial médico electrónico estándar, que incluía signos vitales, datos demográficos y algunas frases de enfermería sobre el motivo de consulta.

Con ese nivel inicial de información, el sistema de IA superó a los médicos en precisión diagnóstica. El modelo logró su mejor ventaja cuando debía trabajar con pocos datos, un escenario habitual en el triaje de emergencia y uno de los más difíciles para cualquier profesional sanitario.

Cuando se añadió más información clínica, ambos grupos mejoraron. Sin embargo, la IA elevó su precisión hasta 82%, mientras que los expertos humanos se ubicaron entre 70% y 79%. En este punto, la diferencia ya no fue estadísticamente significativa, pero la ventaja inicial del sistema siguió siendo uno de los datos más llamativos.

Los autores también evaluaron a la IA en decisiones de manejo más prolongado, como la elección de regímenes de antibióticos o la planificación de procesos de final de vida. Allí volvió a imponerse frente a médicos humanos que usaban recursos convencionales, como motores de búsqueda, para responder.

En esa prueba, se pidió a la IA y a 46 médicos revisar cinco estudios de caso clínico. El sistema obtuvo una puntuación de 89%, muy por encima del 34% registrado por los humanos. Ese contraste amplió el debate sobre hasta qué punto los modelos de lenguaje ya pueden actuar como herramientas de apoyo clínico de alto valor.

El estudio también destacó un caso concreto. Un paciente llegó con un coágulo de sangre en los pulmones y síntomas en empeoramiento. Los médicos interpretaron que los anticoagulantes estaban fallando, pero la IA detectó otra posibilidad: el antecedente de lupus podía explicar una inflamación pulmonar. Luego se confirmó que la IA tenía razón.

Por qué los autores no creen que la IA vaya a reemplazar a los médicos

Pese al resultado, los investigadores fueron enfáticos en marcar límites. La evaluación enfrentó a humanos e IA usando únicamente datos de pacientes que podían expresarse por texto en la historia clínica. Eso excluye gran parte del trabajo real de urgencias, donde importan señales visuales, auditivas y contextuales que no siempre quedan registradas.

La apariencia física del paciente, su nivel de angustia, el tono de voz, la respiración, la postura y otros indicios pueden cambiar una decisión médica crítica. Ese plano no fue capturado de forma completa por el estudio, por lo que la IA actuó más como un clínico que ofrece una segunda opinión a partir de documentación existente.

Arjun Manrai, uno de los autores principales y director de un laboratorio de IA en la Facultad de Medicina de Harvard, dijo que los resultados no significan que la IA vaya a reemplazar a los médicos. Sí sostuvo que el sector está frente a un cambio profundo que remodelará la medicina y que debe evaluarse con ensayos clínicos prospectivos y rigurosos.

Adam Rodman, también autor principal y médico en Beth Israel Deaconess, describió a los modelos de lenguaje como una de las tecnologías más impactantes en décadas. Su visión para los próximos años no es la sustitución del clínico, sino un “modelo triádico de atención” compuesto por médico, paciente y sistema de inteligencia artificial.

Ese enfoque sugiere una transición parecida a la que ya ocurrió en otras industrias intensivas en datos. La IA no necesariamente desplaza al profesional, pero sí cambia el estándar operativo y eleva las expectativas sobre velocidad, amplitud de análisis y capacidad para no pasar por alto diagnósticos poco frecuentes.

En medicina, sin embargo, el listón es mucho más alto. Un error no solo tiene implicaciones económicas o reputacionales, también puede traducirse en daño físico, agravamiento del cuadro o decisiones irreversibles sobre tratamientos complejos y final de vida.

Seguridad, sesgos y responsabilidad siguen siendo grandes obstáculos

Los propios autores y expertos externos subrayaron que el estudio no demuestra que la IA sea segura para uso clínico rutinario. Tampoco resuelve dudas sobre equidad, costo-efectividad o desempeño en grupos específicos de pacientes, como adultos mayores o personas que no hablan inglés.

Wei Xing, profesor asistente de la Universidad de Sheffield, advirtió que algunos resultados sugieren que los médicos podrían estar cediendo de forma inconsciente ante las respuestas de la IA en lugar de pensar de manera independiente. Esa tendencia podría intensificarse si estas herramientas se vuelven más comunes en la práctica clínica diaria.

El riesgo no es trivial. Una IA convincente puede inducir confianza incluso cuando se equivoca. En entornos de alta presión, como una sala de emergencia, la tentación de aceptar una recomendación bien redactada y aparentemente lógica podría terminar debilitando el juicio clínico humano en vez de reforzarlo.

Rodman también remarcó otro vacío: hoy no existe un marco formal de rendición de cuentas para errores cometidos por estos sistemas. Si una sugerencia de IA conduce a una mala decisión, sigue sin estar claro dónde empieza y termina la responsabilidad del hospital, del médico tratante, del proveedor tecnológico o del regulador.

Desde Reino Unido ya aparecen señales del cambio cultural. Una encuesta reciente del Royal College of Physicians indicó que 16% de los médicos usa esta tecnología a diario y otro 15% de forma semanal. Entre los usos más comunes está precisamente la toma de decisiones clínicas, aunque persisten inquietudes por errores y responsabilidad legal.

En Estados Unidos, casi uno de cada cinco médicos ya utiliza IA para apoyar diagnósticos, de acuerdo con una investigación publicada el mes pasado. Ese dato ayuda a entender por qué el debate dejó de ser futurista. La pregunta ya no es si la IA entrará en la medicina, sino bajo qué reglas y con qué nivel de supervisión.

Un punto de inflexión para la medicina asistida por IA

Expertos independientes calificaron el trabajo como un avance real en el razonamiento clínico de los modelos de lenguaje. Ewen Harrison, codirector del centro de informática médica de la Universidad de Edimburgo, dijo que estos sistemas ya no solo aprueban exámenes o resuelven casos artificiales, sino que empiezan a parecer herramientas útiles de segunda opinión.

Ese matiz es importante. Durante años, muchas demostraciones de IA médica ocurrieron en entornos controlados y poco representativos. Lo que diferencia a esta investigación es la escala, el uso de casos clínicos desordenados y la comparación directa entre médicos humanos e IA en un escenario realista de hospital.

La cobertura de CNET destacó precisamente ese elemento, al señalar que el trabajo se apoya en décadas de pruebas diagnósticas difíciles, pero eleva el estándar al enfrentar a la máquina contra clínicos certificados, activos y sometidos a condiciones cercanas a la práctica diaria. Esa comparación directa es la que vuelve especialmente sensible el resultado.

Al mismo tiempo, un comentario publicado junto al estudio en Science por Ashley M. Hopkins y Eric Cornelisse, de Flinders University en Australia, sostuvo que la medicina sigue siendo un campo complejo que requiere supervisión estricta. En palabras de Cornelisse, si a los médicos no se les permite ejercer sin evaluación y control, la IA debería someterse a estándares comparables.

Ese razonamiento encaja con una realidad más amplia. Miles de millones de dólares están fluyendo hacia empresas de salud basadas en inteligencia artificial, mientras hospitales, aseguradoras y desarrolladores compiten por capturar eficiencia y reducir errores. Pero la velocidad de la inversión no garantiza la madurez clínica ni la protección del paciente.

Por eso, aunque el estudio abre una puerta enorme para la IA en urgencias, el mensaje final es más sobrio que triunfalista. La tecnología muestra un potencial notable como segunda opinión clínica, especialmente bajo incertidumbre. Sin embargo, su adopción masiva todavía depende de pruebas prospectivas, normas claras y una integración que mantenga al médico humano en el centro de la atención.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público

Este artículo fue escrito por un redactor de contenido de IA

 


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín