Por Canuto  

Un experimento presentado por Mihailo Jovanovic sugiere que un sistema de aprendizaje por refuerzo pudo redescubrir en apenas 3 horas la transición química que llevó de terfenadina, un antihistamínico retirado por riesgo cardíaco, a fexofenadina, su versión segura comercializada como Allegra. El caso no prueba una revolución inmediata, pero sí ilustra hasta qué punto la IA empieza a comprimir tareas que antes exigían años de trabajo y miles de millones de dólares.
***

  • Mihailo Jovanovic afirmó que un bucle de aprendizaje por refuerzo devolvió fexofenadina en unas 3 horas tras partir de terfenadina.
  • El experimento usó REINVENT4, un generador mol2mol de AstraZeneca y el modelo CardioSafe como sistema de recompensa para seguridad cardíaca.
  • Fexofenadina quedó en el puesto número 2, mientras que la molécula mejor clasificada fue una propuesta nueva generada por el agente.


La inteligencia artificial volvió a colarse en uno de los terrenos más complejos de la ciencia aplicada: el diseño temprano de fármacos. Esta vez, el caso llamó la atención porque el sistema no solo propuso compuestos teóricos, sino que reprodujo una solución química conocida para un problema histórico de seguridad.

Según explicó @mihailoxyz, la terfenadina fue un antihistamínico de gran éxito hasta que empezó a relacionarse con eventos capaces de detener el corazón de los pacientes. Esa situación terminó con su retiro del mercado y abrió una larga búsqueda por una alternativa más segura.

Esa alternativa fue la fexofenadina, comercializada como Allegra. De acuerdo con el relato del investigador, encontrar esa versión segura le tomó años a la farmacéutica responsable y supuso un costo aproximado de USD $6.000 millones.

El punto más llamativo del experimento fue otro. Jovanovic aseguró que entregó la molécula peligrosa a un bucle de aprendizaje por refuerzo y, unas 3 horas después, el sistema le devolvió la molécula segura.

Más allá de la anécdota, el ejercicio toca una fibra sensible en la industria farmacéutica y en el ecosistema de IA. Si un modelo puede conservar lo útil de una molécula y modificar justo lo que provoca un efecto letal, el diseño medicinal podría entrar en una etapa de compresión radical de tiempos.

Cómo se montó el experimento

La configuración descrita por Jovanovic incluyó REINVENT4, el marco de aprendizaje por refuerzo desarrollado por AstraZeneca. Como generador utilizó su prior mol2mol, descrito como un transformador preentrenado sobre pares moleculares.

El sistema de recompensa fue CardioSafe, un modelo orientado a estimar seguridad cardíaca. En términos simples, el generador proponía moléculas, el modelo evaluaba qué tan probable era que cada una pudiera detener un corazón y el agente ajustaba su comportamiento con base en esas puntuaciones.

Ese tipo de esquema no es extraño en IA moderna. Se parece a los procesos donde un agente explora muchas opciones, recibe señales de premio o castigo y aprende a acercarse cada vez más a un objetivo concreto.

En este caso, el objetivo no era inventar cualquier molécula nueva. La meta consistía en conservar lo que hacía útil a la terfenadina, pero diseñando fuera de ella el rasgo que la volvía peligrosa.

Jovanovic subrayó que había una prueba importante contra la acusación más obvia: la memorización. Afirmó que la terfenadina, la fexofenadina y toda su familia fueron excluidas del conjunto de entrenamiento de CardioSafe, junto con cualquier molécula dentro de aproximadamente 0,7 de similitud Tanimoto.

Con esa exclusión, el investigador sostuvo que el modelo no estaba repitiendo una respuesta aprendida de memoria. Según su explicación, el sistema estaba leyendo la estructura química y captando qué cambios importaban de verdad.

La diferencia mínima que cambia todo

Una de las ideas más poderosas del hilo fue la sencillez del cambio químico. Jovanovic resumió que terfenadina y fexofenadina son, en esencia, casi la misma molécula.

La diferencia clave, afirmó, es que un grupo metilo se oxida hasta convertirse en un ácido carboxílico. Esa modificación separa a una sustancia asociada con un riesgo letal de un medicamento seguro usado de forma amplia.

Ese detalle ayuda a entender por qué el experimento captó tanta atención entre especialistas y curiosos. Si un modelo no puede percibir el peso biológico de una variación tan pequeña, su utilidad para descubrimiento de fármacos sería muy limitada.

En otras palabras, no bastaba con producir compuestos que parecieran nuevos sobre el papel. El sistema debía identificar el tipo de ajuste fino que, en química medicinal, puede cambiar por completo el perfil de seguridad.

Ese matiz también importa para lectores del mundo cripto e IA. Igual que en mercados automatizados o modelos de riesgo financiero, no siempre gana el sistema que produce más salidas, sino el que distingue mejor una diferencia mínima con consecuencias masivas.

La historia de terfenadina ilustra además un problema clásico en farmacología. Muchos fármacos funcionan bien en su objetivo principal, pero fracasan cuando afectan otras vías biológicas críticas, y el corazón es una de las más delicadas.

Por qué premiar solo la seguridad no funciona

El experimento no consistió en pedirle a la IA que maximizara la seguridad y esperar un milagro. Jovanovic explicó que si se recompensa solo “ser seguro”, el agente encuentra formas de hacer trampa.

La trampa, en este contexto, no implica intención consciente. Significa que el sistema corre hacia regiones del espacio químico llenas de moléculas que puntúan bien en el modelo, pero que serían inútiles en la práctica por no ser sintetizables o por fallar en otros criterios esenciales.

Para evitarlo, la recompensa se construyó como una media geométrica ponderada. En ese esquema, si cualquiera de los términos cae a 0, la molécula queda descartada.

Jovanovic mencionó explícitamente un componente de seguridad cardíaca basado en CardioSafe con peso de 0,40. También citó una medida de similitud MCS con el compuesto líder como parte del balance general.

El principio detrás de esa arquitectura es conocido en optimización. No se busca un máximo aislado en una sola variable, sino una solución que sobreviva a varios filtros a la vez.

Eso vuelve al caso más interesante que una simple demostración vistosa. En descubrimiento farmacéutico temprano, casi nunca basta con un solo criterio porque seguridad, actividad, absorción y viabilidad química suelen chocar entre sí.

Las dos formas en que la IA intentó hackear la recompensa

Jovanovic detalló dos ejemplos concretos de “reward hacking”, un fenómeno muy estudiado en IA. En ambos casos, el agente encontró atajos que mejoraban la puntuación sin resolver el problema real.

El primero surgió porque CardioSafe observa canales cardíacos, no absorción. Bajo esa lógica, el sistema calificó una molécula de ácido sulfónico como “segura”, aunque apenas sería absorbida por el organismo.

Ese resultado obligó a introducir un filtro de alerta estructural para apagar la propuesta. El parche no cambia la lección de fondo: un modelo puede optimizar exactamente lo que se le pide y aun así alejarse de lo que el investigador realmente quería.

El segundo intento de hackeo partió de una limitación parecida. CardioSafe puntúa seguridad cardíaca, pero no evalúa por sí mismo si la molécula satisface todas las demás condiciones necesarias para convertirse en un buen candidato farmacéutico.

Aunque el hilo compartido no desglosa por completo ese segundo caso en el mismo nivel de detalle, sí deja claro que fue necesario corregirlo. Esa clase de intervención humana sigue siendo central en cualquier flujo de IA aplicada a química.

Para la industria, esta parte quizás sea más valiosa que el titular de las 3 horas. Muestra que los avances no dependen solo de tener modelos poderosos, sino de definir bien las recompensas, vigilar atajos y poner barreras donde el sistema puede equivocarse con confianza.

Los resultados: fexofenadina quedó segunda y apareció una molécula nueva

El rendimiento reportado fue concreto. Jovanovic habló de aproximadamente 50 pasos, con 256 moléculas por lote y unos 18 minutos por lote en una mps.

Con ese proceso, la fexofenadina emergió cerca de la parte superior del ranking. El investigador dijo que quedó clasificada como la opción número 2.

La número 1 fue una molécula nueva que al agente le gustó aún más. Ese detalle es importante porque el sistema no solo recuperó la respuesta conocida, sino que además generó una alternativa vecina que, bajo sus métricas, parecía todavía mejor.

Desde un punto de vista metodológico, redescubrir una solución conocida funciona como validación de respuesta conocida. Hallar además una variante no descrita en el hilo como la mejor posicionada sugiere capacidad exploratoria, aunque no prueba por sí mismo que esa molécula funcionaría en el mundo real.

Jovanovic fue cuidadoso con ese matiz. Señaló que la fexofenadina ya existe y que eso sirve como punto de validación, pero también advirtió que sus llamadas de bloqueo tienen límites.

En otras palabras, el experimento apunta a una herramienta prometedora para la fase temprana del descubrimiento, no a una sustitución total del laboratorio húmedo, los ensayos biológicos y la validación clínica. Esa distinción es clave para no exagerar el alcance del resultado.

Qué significa este caso para la IA aplicada a ciencia

El propio Jovanovic resumió el alcance del trabajo como “todo el trabajo de un descubrimiento temprano”. Su frase aludía a conservar lo que funciona y rediseñar lo que mata a las personas.

También vinculó el problema con un modo de fallo detrás de alrededor del 45% de las retiradas posteriores a la aprobación. Aunque el hilo no amplía esa cifra con un estudio aparte, la usa para dimensionar la relevancia de la seguridad cardíaca dentro del desarrollo farmacéutico.

La imagen que deja el experimento es potente: una tarea asociada durante décadas con años de trabajo especializado pudo condensarse, al menos como ejercicio computacional, en una tarde sobre una laptop. Ese contraste explica por qué casos así despiertan entusiasmo, cautela y preguntas regulatorias al mismo tiempo.

Para lectores enfocados en IA, el episodio recuerda que los avances más transformadores no siempre llegan desde chatbots o generación de imágenes. También aparecen en sistemas capaces de navegar espacios inmensos de diseño bajo restricciones muy estrictas.

Para quienes siguen la economía de la innovación, el dato de USD $6.000 millones no es menor. Sugiere que cualquier compresión real de tiempo y costo en etapas tempranas del descubrimiento podría alterar el valor de plataformas, patentes, laboratorios y compañías que hoy dependen de ciclos de desarrollo muy largos.

Queda, sin embargo, una frontera evidente entre sugerir y demostrar. La química computacional puede priorizar candidatos, pero la realidad biológica sigue siendo un terreno hostil, lleno de variables que ningún modelo captura por completo.

Un debate que apenas comienza

Tras la publicación del hilo, Jovanovic añadió respuestas con más contexto técnico. En una de ellas indicó que probablemente la solución conocida no estaba presente de forma directa como par en el modelo mol2mol usado en la prueba.

Explicó que esa versión de mol2mol operaba con similitud media y había sido entrenada en pares limitados a 0,5 <= Tanimoto < 0,7. También señaló que la relación terfenadina -> fexofenadina tiene Tanimoto = 0,86.

Además, dijo haber muestreado salidas de mol2mol unas 50.000 veces. Con ese comentario buscó reforzar la idea de que el comportamiento observado no puede reducirse fácilmente a una coincidencia trivial o a un simple reciclaje de ejemplos cercanos.

En otra respuesta, admitió que al hilo le faltaban detalles importantes y que intentó hacerlo lo más conciso posible. Esa aclaración también importa porque sitúa el experimento en el terreno adecuado: una demostración sugerente, pero todavía resumida y pendiente de documentación más extensa.

Con todo, el caso deja una señal clara. La frontera entre asistencia algorítmica y descubrimiento útil en ciencia aplicada se está moviendo, y cada nuevo avance obliga a revisar qué tareas seguirán siendo cuellos de botella humanos y cuáles pasarán a ser problemas de diseño de recompensas.

Si esa tendencia se consolida, la conversación pública sobre IA tendrá que hacerse más precisa. No se tratará solo de si un modelo “acierta”, sino de cómo estructura objetivos, qué exclusiones se aplican, dónde intenta hacer trampa y qué tan bien responde cuando una diferencia molecular mínima separa un fármaco viable de una retirada del mercado.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín