Un nuevo marco experimental sugiere que la inteligencia artificial ya no solo ayuda a investigar, sino que también puede mejorar partes centrales de su propio desarrollo. El sistema, llamado ASI-EVOLVE, mostró resultados competitivos en diseño de arquitecturas, curación de datos y algoritmos de aprendizaje.
***
- ASI-EVOLVE completó un ciclo de aprender, diseñar, experimentar y analizar para investigar componentes clave de la propia IA.
- El sistema encontró 105 arquitecturas que superaron a DeltaNet, mejoró conjuntos de datos de preentrenamiento y diseñó algoritmos RL por encima de GRPO.
- Los autores también reportaron señales iniciales de transferencia a biomedicina y matemáticas, más allá del núcleo de IA.
La idea de que la inteligencia artificial pueda acelerar el desarrollo de más inteligencia artificial ha dejado de ser una hipótesis puramente teórica para convertirse en un programa de investigación concreto. Un equipo compuesto por Weixian Xu, Tiantian Mi, Yixiu Liu, Yang Nan, Zhimeng Zhou, Lyumanshan Ye, Lin Zhang, Yu Qiao y Pengfei Liu presentó ASI-Evolve: AI Accelerates AI, un marco que automatiza ciclos de investigación largos, costosos y con retroalimentación compleja.
El trabajo propone una arquitectura de agentes capaz de operar sobre tres pilares centrales del desarrollo de IA: datos, arquitecturas de modelos y algoritmos de aprendizaje. Según los autores, ese enfoque unificado no se había demostrado antes en tareas abiertas de investigación con alto costo computacional y señales de evaluación indirectas o ruidosas.
Para lectores nuevos en el tema, el punto de fondo es simple. Los avances en IA suelen surgir tras muchas rondas de hipótesis, implementación, entrenamiento, pruebas y análisis. Ese proceso toma tiempo, consume GPU y depende mucho de la experiencia humana acumulada. La apuesta de este estudio es que un sistema agentico puede cerrar ese ciclo y ejecutar parte de ese trabajo con autonomía.
El marco presentado se organiza alrededor de una secuencia de aprender, diseñar, experimentar y analizar. En cada ronda, el sistema consulta una base de conocimiento con literatura y heurísticas previas, toma experiencias almacenadas de rondas anteriores, genera un nuevo programa o modificación de código, ejecuta pruebas y luego resume los resultados en informes reutilizables para iteraciones futuras.
Cómo funciona ASI-EVOLVE
El sistema añade dos componentes a los agentes evolutivos convencionales. El primero es una base de cognición que incorpora conocimiento humano acumulado desde el inicio de cada búsqueda. El segundo es un analizador dedicado, encargado de destilar resultados experimentales complejos en conclusiones estructuradas que luego se almacenan en una base de datos de experiencia.
Ese diseño intenta resolver un cuello de botella común en investigación automatizada. En tareas reales, la retroalimentación no suele ser un solo número. También incluye curvas de pérdida, distribuciones por benchmark, trazas de eficiencia, logs de entrenamiento y errores de implementación. El analizador toma esa información extensa y la transforma en lecciones compactas que sí pueden usarse en la siguiente ronda.
El sistema también cuenta con un módulo de ejecución, llamado Engineer, que corre experimentos completos con límites de tiempo, pruebas rápidas y rechazo temprano para filtrar candidatos defectuosos antes de gastar demasiados recursos. En algunos escenarios puede incluso combinar métricas formales con una evaluación cualitativa de un modelo de lenguaje.
La memoria persistente del sistema se organiza en una base de datos que guarda motivación, código, resultados, análisis y metadatos de cada ronda. Para seleccionar nodos padres en nuevas iteraciones, el marco soporta varios algoritmos de muestreo, incluidos UCB1, aleatorio, greedy y MAP-Elites. Los autores sostienen que estas decisiones influyen de forma notable en la velocidad de convergencia y en la calidad final de los descubrimientos.
Resultados en diseño de arquitecturas
En el frente de arquitectura de modelos, ASI-EVOLVE se enfocó en mecanismos de atención lineal, un área donde el objetivo es reducir costos frente a la atención cuadrática de los Transformers tradicionales sin perder capacidad de modelado. El punto de partida fue DeltaNet, una referencia humana dentro de esta familia de modelos.
Según el estudio, el sistema generó 1.350 candidatos durante 1.773 rondas de exploración y descubrió 105 arquitecturas que superaron a DeltaNet en la fase de verificación. El mejor modelo logró una mejora de +0,97 puntos frente a DeltaNet, casi 3 veces por encima del avance manual reciente atribuido a Mamba2, que había sumado +0,34 puntos sobre esa misma base.
En la validación a gran escala, las mejores arquitecturas alcanzaron hasta 57,28% de precisión promedio en benchmarks de desarrollo, frente a 55,76% de DeltaNet. En pruebas de generalización llegaron hasta 45,40%, frente a 44,74% del modelo base. El paper destaca cinco diseños representativos, entre ellos PathGate-FusionNet, Content-SharpRouter, FusionGated-FIRNet, Hier-GateNet y AdaMulti-PathGateNet.
Los autores observan una pauta común entre esas variantes. En lugar de asignaciones fijas de cómputo, los modelos más fuertes usan enrutamiento adaptativo y de múltiples escalas, ajustando presupuesto computacional según el contenido de entrada. Esa fue, según su análisis, la palanca principal para superar a DeltaNet en un espacio ya muy saturado por diseños humanos.
El experimento requirió medidas de control específicas. Se incluyó un agente para verificación estática de restricciones, otro para depuración de errores de ejecución y un filtro de novedad para evitar duplicados. Además, la evaluación tuvo varias etapas, desde modelos pequeños de cerca de 20 millones de parámetros hasta validaciones con alrededor de 1.300 millones de parámetros y entrenamiento sobre 100.000 millones de tokens.
Mejoras en curación de datos de preentrenamiento
ASI-EVOLVE también se aplicó a la curación de datos de preentrenamiento, un problema menos visible pero decisivo para el rendimiento de modelos grandes. En este caso, la tarea consistía en diseñar estrategias específicas por categoría para limpiar corpus masivos, detectar ruido y preservar contenido útil según el dominio.
El sistema trabajó sobre categorías del corpus Nemotron-CC, que según el estudio abarca 672.000 millones de tokens de contenido académico en matemáticas, informática, medicina y otras áreas STEM, cada una con dos niveles de calidad. Tras aplicar las estrategias optimizadas, el conjunto resultante, Nemotron-CCASI+, quedó en 504.000 millones de tokens.
Los autores entrenaron modelos de 3.000 millones de parámetros sobre 500.000 millones de tokens y compararon 18 benchmarks. Nemotron-CCASI+ obtuvo una puntuación promedio de 44,13, superando por +3,96 puntos a los datos en bruto y también a corpora como DCLM, FineWeb-Edu y Ultra-Fineweb bajo el mismo presupuesto de entrenamiento.
Las mejoras más fuertes aparecieron en tareas intensivas en conocimiento. El trabajo reporta avances de +18,64 puntos en MMLU, +18,80 puntos en CSQA y +13,48 puntos en MedQA. En el análisis cualitativo, el sistema tendió a converger hacia estrategias centradas en limpieza, con eliminación de artefactos HTML, duplicados y datos personales, además de normalización de formato y reglas de preservación según el dominio.
Los investigadores subrayan un punto importante. El sistema no recibió instrucciones prescriptivas sobre qué operaciones usar. Aun así, la evolución iterativa, alimentada por retroalimentación diagnóstica sobre cobertura y ejecutabilidad, terminó favoreciendo enfoques de limpieza metódica con criterios medibles y reglas explícitas para no borrar demasiado contenido valioso.
Diseño de algoritmos de aprendizaje por refuerzo
La tercera gran prueba fue el diseño de algoritmos de reinforcement learning para entrenar modelos de lenguaje. Aquí el punto de partida fue GRPO, y la misión del sistema consistía en rediseñar tanto la asignación de ventajas entre secuencias como el cálculo de gradientes posterior.
La base de cognición se inicializó con 10 papers publicados después de GRPO, enfocados en técnicas de reducción de varianza y cambios en penalizaciones KL. Durante 300 rondas evolutivas, ASI-EVOLVE entrenó y evaluó múltiples modificaciones de policy gradient. De ese proceso surgieron 10 algoritmos que mejoraron a GRPO en la fase exploratoria.
Al escalar a una fase de verificación con un modelo de 14.000 millones de parámetros, 3 algoritmos mostraron mejoras estadísticamente significativas en todos los dominios evaluados. En benchmarks matemáticos, el mejor variante superó a GRPO por +12,5 puntos en AMC32, al pasar de 67,5 a 80,0; por +11,67 puntos en AIME24, al pasar de 20,00 a 31,67; y por +5,04 puntos en OlympiadBench, al pasar de 45,92 a 50,96.
El estudio destaca dos algoritmos. El primero, llamado Optimización Asimétrica por Pares, reemplaza el promedio grupal por una ventaja comparativa basada en diferencias de recompensas entre muestras y añade un mecanismo asimétrico de clipping, junto con un dropout de gradiente para tokens de alto impacto. El segundo, Budget-Constrained Dynamic Radius, usa normalización por percentiles y establece un presupuesto global de actualización que limita matemáticamente la magnitud total de los cambios de política.
La relevancia de este resultado va más allá de unos pocos puntos extra. Si un sistema automatizado puede proponer y verificar innovaciones matemáticas en funciones de pérdida y estabilidad de entrenamiento, entonces no solo está automatizando ingeniería experimental. También empieza a participar en el diseño de ideas algorítmicas que antes se consideraban terreno netamente humano.
Comparaciones, ablaciones y señales fuera del núcleo de IA
Para ubicar su aporte frente a otros sistemas, los autores introducen la noción de longitud de tarea científica, definida por costo de ejecución, complejidad del espacio de búsqueda y complejidad de la retroalimentación. Su argumento es que muchas propuestas previas operan en entornos más simples, con objetivos mejor definidos, pruebas más baratas y señales de evaluación más directas.
Como benchmark controlado, ASI-EVOLVE se probó en el problema de empaquetado de círculos. Allí alcanzó una puntuación de 2,63597 en apenas 17 rondas, igualando nivel de referencia reportado por otros marcos y haciéndolo más rápido que sistemas comparados como OpenEvolve o SkyDiscover en los datos presentados. En pruebas alineadas, el framework también mostró mejor salida del arranque en frío y una convergencia más confiable que OpenEvolve y GEPA.
Las ablaciones ofrecen una lectura útil. Cuando se eliminó el analizador, el sistema seguía arrancando bien gracias a la base de cognición, pero luego caía en una meseta más larga y con mejoras menos consistentes. Cuando se quitó la cognición, el arranque se volvió más lento, aunque el sistema mantuvo capacidad de aprender con prueba y error. En otras palabras, la cognición acelera el inicio y el analizador fortalece la mejora sostenida.
Más allá del núcleo de IA, el paper reporta una transferencia preliminar a biomedicina. En predicción de interacción fármaco-objetivo, una arquitectura evolucionada por el sistema mejoró en +6,94 puntos de AUROC en escenarios de generalización cold-start. En el conjunto Human, por ejemplo, el rendimiento para fármacos no vistos pasó de 79,15 a 86,09 en AUROC, mientras que para el escenario con fármacos y proteínas no vistos subió de 76,47 a 80,83.
Ese experimento no prueba que la automatización científica general esté resuelta. Pero sí sugiere que los diseños descubiertos en un circuito de auto-mejora de IA pueden tener valor práctico fuera de esa misma pila tecnológica. Para una audiencia interesada en IA, mercados y automatización, esa posibilidad importa porque apunta a un futuro donde el ritmo de innovación podría acelerarse de manera no lineal si las máquinas empiezan a optimizar más partes del proceso de investigación.
Los propios autores reconocen límites. En arquitectura, por ejemplo, el sistema diseña mecanismos de atención pero no kernels CUDA optimizados a bajo nivel, por lo que no garantiza la misma eficiencia en tiempo real que implementaciones humanas altamente pulidas. Aun así, el conjunto de resultados abre un debate mayor: si la IA ya puede mejorar datos, modelos y algoritmos dentro de un mismo ciclo cerrado, el próximo cuello de botella puede dejar de ser la generación de ideas y pasar a ser la definición de problemas valiosos por parte de los humanos.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Análisis de mercado
Tao sube 5,77% a USD $320,84 en rally impulsado por IA
IA
Sam Altman propone reinventar el capitalismo con la llegada de la IA
Entrevistas
Tristan Harris alerta sobre una carrera por crear una IA imposible de controlar
Empresas