Por Canuto  

Un equipo académico presentó ARTS, un sistema que usa modelos de razonamiento para decidir qué hipótesis científicas merece la pena seguir explorando y cuáles fallaron solo por mala ejecución. Según sus autores, el enfoque supera a métodos líderes de búsqueda automatizada en 16 de 22 tareas y, en su versión con entrenamiento en tiempo de prueba, permite que un modelo pequeño compita con sistemas cerrados mucho más costosos.
***

  • ARTS mejoró el puntaje normalizado en 15,3% frente a métodos líderes en 22 tareas de MLGym y MLEBench.
  • La propuesta separa la calidad de una hipótesis de la calidad de su implementación, un problema que sesga a los métodos heurísticos tradicionales.
  • Con entrenamiento en tiempo de prueba, Qwen3-4B igualó o superó en varios casos a modelos cerrados con hasta 5 veces menos costo de inferencia.


La automatización de la investigación científica con inteligencia artificial acaba de sumar un nuevo competidor relevante. Un grupo de investigadores de University of California, Santa Barbara, Université de Montréal y Mila presentó un sistema llamado ARTS, siglas de Agentic Reasoning for Tree Search.

La propuesta parte de una idea simple, pero importante. En muchos problemas científicos, una hipótesis prometedora puede parecer mala si su primera implementación en código sale defectuosa, inestable o insuficientemente entrenada.

Ese matiz suele perderse en los métodos actuales de búsqueda automatizada. Varios de ellos priorizan ramas de exploración con mejores puntajes inmediatos, aunque esos resultados reflejen más la calidad de la ejecución que el potencial real de la idea.

El trabajo Learning the ARTS of Search for Automated Discovery, de Gurusha Juneja, Arnav Kumar Jain, Deepak Nathani, William Yang Wang y Xin Eric Wang, sostiene que ese problema limita la capacidad de los agentes de IA para descubrir mejores soluciones en investigación de machine learning.

De acuerdo con los autores, ARTS logró una mejora relativa de 15,3% en el puntaje normalizado frente a algoritmos líderes a lo largo de 22 tareas de los benchmarks MLGym y MLEBench. Además, la versión ARTS∗ permitió que un modelo Qwen3-4B alcanzara niveles comparables a sistemas cerrados de frontera con hasta 5 veces menos costo de inferencia.

Qué intenta resolver ARTS y por qué importa

La investigación científica puede verse como un proceso iterativo de prueba y error. Se proponen hipótesis, se implementan experimentos, se revisan fallas y se vuelve a intentar con nuevos ajustes.

Ese proceso, cuando se traslada a agentes automatizados, suele convertirse en una búsqueda dentro de un árbol. Cada nodo representa un experimento ya validado con su hipótesis, su código, sus registros de ejecución y su puntaje final.

El problema, según los autores, es que muchos sistemas actuales eligen qué rama expandir basándose en reglas heurísticas. Entre ellas figuran búsquedas lineales, métodos basados en árboles como MCTS y enfoques evolutivos que privilegian la puntuación más alta o la exploración estadística.

En teoría, eso suena razonable. En la práctica, mezcla dos cosas distintas: qué tan buena era la idea y qué tan bien fue ejecutada en ese intento particular.

Un ejemplo que ofrece el estudio ayuda a verlo mejor. Un Transformer mal ajustado puede puntuar por debajo de un LSTM en una tarea de modelado secuencial, aunque con afinación adecuada el Transformer termine siendo superior.

Si el buscador sigue solo la puntuación, tenderá a profundizar en el LSTM y descartará demasiado pronto al Transformer. Para los autores, ese comportamiento refleja una confusión central entre el valor científico de la hipótesis y la calidad de su implementación inicial.

El trabajo también señala otro límite técnico. A medida que el árbol de búsqueda crece, el historial de experimentos supera la ventana de contexto de los modelos de lenguaje.

En ese punto, los sistemas previos suelen resumir o podar información. Eso reduce costos, pero también elimina detalles que pueden ser decisivos para entender por qué una línea de investigación falló o merece otra oportunidad.

ARTS busca enfrentar ambas limitaciones al mismo tiempo. Por un lado, deja que un modelo de razonamiento inspeccione nodos previos, lea código y logs, y juzgue si el fallo vino de una hipótesis débil o de una mala ejecución.

Por otro, incorpora una técnica de entrenamiento en tiempo de prueba para mover parte de ese conocimiento desde el contexto hacia los pesos del modelo. En términos prácticos, la idea es que el sistema “recuerde” el árbol sin tener que releerlo entero todo el tiempo.

Cómo funciona el sistema propuesto por los investigadores

ARTS divide el trabajo entre dos componentes. El primero es un “científico”, encargado de decidir qué nodo del árbol conviene expandir y qué hipótesis probar después.

El segundo es un “ejecutor”, cuya tarea es escribir el código, correr el experimento y devolver un resultado válido. Los autores remarcan que elegir una buena dirección de investigación y programar correctamente no son exactamente la misma habilidad.

En sus pruebas principales, usaron OpenAI o3 como científico y Gemini 3 Flash como ejecutor. Esa separación, según el paper, permitió combinar una fuerte capacidad de razonamiento con una ejecución de código más rápida y barata.

El científico recibe una vista compacta del árbol actual. Allí ve identificadores de nodos, puntajes e hipótesis, y además puede consultar una memoria persistente donde se guardan aprendizajes cortos tras cada expansión.

Si necesita más detalles, puede inspeccionar nodos específicos. Esa herramienta le devuelve el código, las curvas de entrenamiento y la salida del programa para entender qué ocurrió en experimentos previos.

Ese punto es clave en la propuesta. En vez de asumir que un puntaje bajo implica una mala idea, ARTS intenta diagnosticar si hubo una importación faltante, un error de formas, un entrenamiento insuficiente o un problema real de la hipótesis.

Antes de modificar código, el sistema reserva además un pequeño número de llamadas iniciales a una fase de auditoría. Durante esa etapa, el científico solo puede leer datos, código base y el script de evaluación para detectar sesgos estructurales del problema.

Los autores dan un ejemplo concreto con la tarea de detección de tinta en Vesuvius. Como solo unas pocas muestras tienen etiquetas mientras el volumen de datos sin etiquetar es enorme, una auditoría temprana puede sugerir que el preentrenamiento autosupervisado sería una vía especialmente prometedora.

Para evitar el colapso de diversidad, ARTS no toma siempre la hipótesis más probable. En cambio, el científico enumera varias candidatas, cada una con una probabilidad, y un muestreador externo elige una de ellas.

Ese detalle busca impedir que el sistema quede atrapado en la continuación obvia, como pequeños ajustes repetitivos de tasa de aprendizaje. Según el estudio, la diversidad de hipótesis es una condición necesaria para encontrar soluciones globalmente mejores.

Resultados en 22 tareas y comparación con métodos previos

Los autores evaluaron ARTS en 22 tareas repartidas entre MLGym y MLEBench. Esas baterías incluyen problemas de visión, modelado de lenguaje, aprendizaje por refuerzo, teoría de juegos y competencias tipo Kaggle.

Cada método recibió el mismo presupuesto de tiempo, fijado en 8 horas, y corrió dentro de contenedores con el mismo conjunto de acciones y restricciones. Los resultados reportan el mejor puntaje de validación alcanzado por corrida, promediado sobre 3 ejecuciones independientes.

La comparación principal incluyó tres enfoques previos. El primero fue búsqueda lineal basada en AutoResearch, el segundo fue AIRA como búsqueda en árbol con MCTS, y el tercero fue MLEvolve como estrategia evolutiva.

En el agregado, ARTS obtuvo el mejor desempeño en 16 de 22 tareas. También alcanzó una mejora media normalizada de 15,3% respecto a los métodos líderes usados como referencia.

Entre los casos destacados del paper aparecen tareas difíciles como HMS Brain Activity y RSNA Brain Tumor. En ambas, ARTS superó el mejor resultado humano citado por los autores para esas pruebas.

En HMS Brain Activity, donde una menor divergencia KL es mejor, ARTS terminó con 0,499 en la tabla principal frente a 0,543 de la búsqueda lineal, 0,550 de AIRA y 0,583 de MLEvolve. El mejor valor humano citado fue 0,272.

En RSNA Brain Tumor, donde un AUC mayor es mejor, ARTS logró 0,673 frente a 0,638 en búsqueda lineal, 0,649 en AIRA y 0,656 en MLEvolve. El valor humano de referencia incluido en el estudio fue 0,621.

En Meta Maze, una tarea de aprendizaje por refuerzo parcialmente observable, ARTS alcanzó 51,20, por encima de 46,80 en búsqueda lineal, 36,42 en AIRA y 45,35 en MLEvolve. El mejor humano citado fue 52,50.

También hubo tareas más saturadas, donde casi todos los métodos quedaron cerca del techo. Los autores mencionan House Price y Jigsaw Toxic como ejemplos donde las diferencias entre sistemas fueron menores.

Más allá de la media simple, el estudio mostró que ARTS obtuvo el mejor IQM, o media intercuartílica. Ese indicador reduce el peso de valores extremos, por lo que sugiere que la ventaja no depende solo de unos pocos golpes de suerte.

Por qué ARTS parece rendir mejor según el análisis cualitativo

El estudio atribuye la ventaja de ARTS a tres factores. El primero es la capacidad de no abandonar prematuramente una hipótesis prometedora cuando un experimento inicial salió mal por razones de implementación.

Un caso ilustrativo apareció en HMS Brain Activity. Allí, ARTS construyó una familia de soluciones basada en espectrogramas y redes convolucionales, observó regresiones temporales y, tras releer logs, concluyó que el problema era entrenamiento insuficiente bajo augmentación, no una mala idea de base.

Esa decisión le permitió insistir sobre la misma familia con cambios más finos. Finalmente, esa rama alcanzó una divergencia KL de 0,467 en la trayectoria cualitativa destacada por los autores.

AIRA, en contraste, encontró temprano una familia competitiva, pero luego pivotó hacia otras direcciones y nunca volvió a refinar la rama inicial. En el ejemplo citado, algunas de esas nuevas ramas terminaron degradándose hasta 4,08 y 9,43 de KL.

El segundo factor fue la diversidad. ARTS repartió sus expansiones entre familias de hipótesis más variadas que los métodos guiados solo por puntaje.

Para medirlo, los investigadores etiquetaron hipótesis en 8 ejes distintos. ARTS cubrió 4,43 ejes por corrida, frente a 4,05 de MLEvolve.

También reportó una entropía de 1,73 en la distribución de propuestas, superior a 1,35 en MLEvolve y 1,48 en AIRA. En términos sencillos, eso significa que distribuyó mejor su presupuesto entre varios enfoques en vez de insistir casi siempre en la misma clase de ajuste.

La validación humana en 111 expansiones sobre 15 corridas reforzó ese hallazgo. Un 45% de las expansiones de ARTS abrió hipótesis completamente nuevas, frente a 3% en AIRA y 0% en MLEvolve.

El tercer factor fue la calidad de las hipótesis. Según el paper, ARTS no solo explora más, sino que explora mejor, porque cada propuesta se formula tras leer código y registros para responder a un fallo específico.

En MetaMaze, por ejemplo, ARTS detectó que la línea base aplanaba la estructura 2D del laberinto antes de entregarla a la red. A partir de allí corrigió primero la geometría de entrada y luego avanzó hacia observaciones más ricas, alcanzando 53,0 en la versión entrenada con TTT.

El papel de ARTS∗ y el salto de Qwen3-4B con menor costo

La extensión ARTS∗ intenta resolver el problema del contexto largo. Cuando el árbol se vuelve muy grande, releerlo entero deja de ser eficiente y puede deteriorar la capacidad de razonamiento del modelo.

Para ese escenario, los autores usan entrenamiento en tiempo de prueba con adaptadores LoRA. La lógica es afinar al científico sobre el historial acumulado del propio árbol, para que parte de lo aprendido quede incorporado en sus pesos.

En ese esquema, el modelo no aprende solo qué hipótesis proponer. También aprende qué nodo conviene expandir, porque cada acción incluye tanto la selección del padre como la hipótesis a testear.

La recompensa usada por los autores fue de un solo paso y basada en percentiles. Los nodos nulos recibieron -0,5, los peores que la línea base -0,2, los que quedaron entre la base y el percentil 70 recibieron 0, y los que superaron ese percentil obtuvieron 1.

Ese diseño, según el estudio, funcionó mejor que recompensas más simples o trayectorias de varios pasos. La explicación es que facilita la asignación de crédito a una acción concreta dentro de un proceso caro y ruidoso.

Los resultados con Qwen3-4B fueron uno de los hallazgos más llamativos. En MLGym, el puntaje normalizado medio del científico pequeño subió de 0,72 a 1,01 tras entrenamiento en tiempo de prueba, un salto de 40%.

En varias tareas, ARTS∗ con Qwen3-4B igualó o superó al científico o3. En Titanic pasó de 0,949 sin TTT a 0,998 con TTT, y en CIFAR-10 subió de 0,957 a 0,982.

En modelado de lenguaje, la pérdida bajó de 4,34 a 3,518. Ese valor quedó muy cerca del mejor humano citado, 3,500, y fue incluso mejor que 3,827 logrado por ARTS con o3 en la tabla comparativa de esa sección.

El ejemplo más simbólico fue Meta Maze. Allí, ARTS∗ con Qwen3-4B llegó a 53,00, por encima de 51,20 con o3 y del mejor humano citado, 52,50.

Los autores interpretan ese caso como evidencia de que el entrenamiento en tiempo de prueba puede preservar una dirección prometedora cuando la búsqueda larga tiende a desviarse. En particular, el sistema pequeño volvió sobre la idea de memoria recurrente con LSTM y logró refinarla mejor.

Alcances, límites y por qué este avance merece atención

Para lectores del mundo cripto e IA, este trabajo no trata sobre Bitcoin ni blockchain de forma directa. Sin embargo, sí toca un punto crucial para toda la economía de agentes: cómo hacer que sistemas automáticos investiguen, prueben y mejoren estrategias complejas con menos costo computacional.

Esa pregunta es relevante para trading algorítmico, diseño de modelos financieros, optimización de contratos inteligentes y automatización de investigación cuantitativa. Si una IA aprende a distinguir mejor entre una mala tesis y una mala ejecución, puede gastar menos recursos y generar iteraciones más útiles.

El estudio también sugiere algo incómodo para el ecosistema de modelos gigantes. Un sistema de 4.000 millones de parámetros bien afinado en tiempo de prueba podría competir con modelos cerrados mucho más caros en tareas especializadas.

Eso no significa que el problema esté resuelto. Los propios autores reconocen que ARTS depende de la calidad del científico y del ejecutor, y que agentes de investigación más potentes podrían concentrar capacidades en grupos con más acceso a cómputo.

También subrayan riesgos de uso indebido en dominios sensibles. Por eso plantean que cualquier despliegue debería conservar restricciones de tarea, registro de acciones y supervisión humana.

Aun con esas cautelas, el resultado es relevante. En un momento en que la industria discute agentes autónomos para programar, investigar y operar, ARTS ofrece una idea concreta de cómo mejorar la toma de decisiones en búsquedas complejas.

Su principal aporte no parece ser solo obtener mejores puntajes. El cambio más importante es metodológico: dejar de tratar cada resultado bajo como un fracaso definitivo y empezar a preguntar por qué falló antes de podar una línea de trabajo.

Ese matiz puede sonar menor, pero en ciencia y en mercados suele marcar la diferencia. A veces, la mejor oportunidad no es la que ya luce más pulida, sino la que todavía está mal ejecutada.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín