Por Canuto  

Un equipo de investigadores de UIUC, Stanford, NVIDIA y MIT presentó RecursiveMAS, un nuevo marco de inteligencia artificial que busca escalar la colaboración entre múltiples agentes mediante recursión en espacio latente. Según los resultados reportados, el sistema mejora la precisión promedio en 8,3%, acelera la inferencia entre 1,2x y 2,4x, y reduce el uso de tokens hasta en 75,6% frente a enfoques multiagente basados en texto.
***

  • RecursiveMAS conecta agentes heterogéneos de IA en un bucle recursivo que trabaja en espacio latente en vez de intercambiar texto en cada paso.
  • El estudio reporta una mejora promedio de 8,3% en precisión, junto con aceleración de inferencia de entre 1,2x y 2,4x.
  • La propuesta fue evaluada en 9 benchmarks de matemáticas, ciencia, medicina, búsqueda y generación de código con modelos como Qwen, Llama, Gemma y Mistral.


La inteligencia artificial vive una nueva etapa de competencia por escalar rendimiento sin disparar costos. En ese contexto, un grupo de investigadores de University of Illinois Urbana-Champaign, Stanford University, NVIDIA y MIT propuso un enfoque que intenta resolver uno de los principales cuellos de botella de los sistemas multiagente: la lentitud y el gasto derivados de que los modelos se comuniquen entre sí mediante texto.

La propuesta fue presentada en el trabajo Recursive Multi-Agent Systems, firmado por Xiyuan Yang, Jiaru Zou, Rui Pan, Ruizhong Qiu, Pan Lu, Shizhe Diao, Jindong Jiang, Hanghang Tong, Tong Zhang, Markus J. Buehler, Jingrui He y James Zou. El documento plantea llevar la lógica de los modelos recursivos, que refinan razonamiento en varias rondas, desde un solo modelo hacia sistemas compuestos por múltiples agentes especializados.

En términos simples, la idea es que la colaboración entre agentes también pueda escalarse mediante recursión. En lugar de obligar a cada agente a generar texto, esperar al siguiente y repetir el ciclo, el sistema transmite estados latentes, es decir, representaciones internas continuas, entre agentes distintos. Con ello busca ganar velocidad, reducir uso de tokens y conservar una señal de aprendizaje más estable durante el entrenamiento.

Los autores bautizaron su marco como RecursiveMAS. Su tesis central es que un sistema multiagente completo puede entenderse como un proceso recursivo unificado en espacio latente, donde cada agente funciona de forma análoga a una capa dentro de una arquitectura recurrente más grande. La consecuencia práctica es una colaboración más fluida entre modelos heterogéneos, incluso si pertenecen a familias distintas o tienen tamaños diferentes.

Cómo funciona RecursiveMAS

El diseño se apoya en un módulo ligero llamado RecursiveLink. Este componente sirve para conectar agentes y facilitar tanto la generación de “pensamientos latentes” dentro de cada modelo como la transferencia de estados latentes entre agentes diferentes. Según el estudio, hay dos tipos de enlace.

El primero es el inner RecursiveLink, que opera dentro de cada agente. Su función es tomar los estados ocultos de última capa y reutilizarlos como entrada para el siguiente paso de generación latente. Así, el agente puede profundizar su razonamiento sin necesidad de decodificar texto en cada iteración.

El segundo es el outer RecursiveLink, que conecta agentes heterogéneos. Como distintos modelos pueden usar dimensiones ocultas y arquitecturas diferentes, este módulo transforma las representaciones de un agente al espacio adecuado para el siguiente. De esa manera, un agente puede condicionar el razonamiento del otro sin pasar por el costoso proceso de decodificar y volver a codificar texto.

La arquitectura cierra el circuito formando un bucle. Tras completar su generación latente, el último agente devuelve sus representaciones al primero, y el sistema vuelve a iterar por varias rondas. Solo en la ronda final se genera la salida textual. Esa decisión es clave en la ganancia de eficiencia que reporta el trabajo.

Para entrenar el sistema, los autores usan un esquema de doble ciclo. El ciclo interno sirve para adaptar a cada agente a este patrón de generación latente, mientras que el ciclo externo optimiza la colaboración entre agentes a nivel de sistema. En ambos casos, se congelan los parámetros base de los modelos y solo se entrenan los módulos RecursiveLink, lo que reduce el costo frente a ajustes más amplios.

Qué problemas intenta resolver frente a los sistemas multiagente tradicionales

Los sistemas multiagente han ganado popularidad porque permiten repartir tareas entre modelos con roles distintos. Un agente puede planificar, otro criticar, otro resolver, y otros especializarse en matemáticas, medicina o código. Sin embargo, esa ventaja estructural viene con un costo notable: la dependencia secuencial de mensajes en lenguaje natural puede introducir mucha latencia.

El trabajo sostiene que ese intercambio textual no solo es lento, sino que también complica el aprendizaje. Cada paso de decodificación hacia texto y recodificación hacia embeddings interrumpe la propagación de gradientes. En términos técnicos, los autores argumentan que esto puede inducir gradientes débiles o cercanos a cero durante el entrenamiento recursivo.

Por eso, RecursiveMAS reemplaza esa mediación por una interacción directa en espacio latente. El análisis teórico del documento afirma que este diseño mejora la complejidad de ejecución de extremo a extremo al sustituir el costoso paso de decodificación en espacio de vocabulario por transformaciones latentes más ligeras. Además, sostiene que mantiene gradientes estables durante el entrenamiento recursivo.

En un entorno donde la industria persigue más razonamiento, menor latencia y mejor relación costo-rendimiento, ese punto es relevante. Muchas arquitecturas avanzadas de IA hoy tropiezan no por falta de calidad del modelo base, sino por el precio computacional de coordinarlos entre sí cuando la tarea exige múltiples rondas de deliberación.

Resultados en matemáticas, ciencia, medicina, búsqueda y código

RecursiveMAS fue evaluado en 9 benchmarks que abarcan razonamiento matemático, ciencia, medicina, búsqueda y generación de código. Entre ellos figuran MATH500, AIME2025, AIME2026, GPQA-Diamond, MedQA, LiveCodeBench-v6, MBPP Plus, HotpotQA y Bamboogle.

Los experimentos incluyeron modelos de distintas familias, como Qwen3 y Qwen3.5, Llama-3, Gemma3 y Mistral. El sistema se probó bajo cuatro patrones de colaboración representativos: estilo secuencial, mezcla de expertos, destilación experto-aprendiz y deliberación con herramientas.

Frente a baselines de un solo agente, sistemas multiagente basados en texto y métodos recursivos previos, RecursiveMAS reportó una mejora promedio de 8,3% en precisión. A la vez, logró una aceleración de inferencia de entre 1,2x y 2,4x, junto con una reducción de uso de tokens de entre 34,6% y 75,6%.

El estudio también muestra que la ventaja crece con la profundidad de recursión. En las pruebas comparativas, RecursiveMAS superó a la versión textual equivalente con una mejora promedio de 8,1% en precisión en la ronda recursiva 1, de 19,6% en la ronda 2 y de 20,2% en la ronda 3. La ganancia de velocidad también se expandió, pasando de 1,2x a 1,9x y luego a 2,4x a medida que se añadieron más rondas.

En reducción de tokens, la diferencia fue todavía más marcada. Mientras el enfoque textual acumulaba mayor sobrecarga con cada vuelta, RecursiveMAS recortó el uso total en 34,6% en la primera ronda, 65,5% en la segunda y 75,6% en la tercera. Esa diferencia es importante para cualquier operador que evalúe costos de inferencia a escala.

Comparación con otros enfoques y configuraciones

En la comparación global a ronda recursiva 3, RecursiveMAS superó a modelos individuales afinados con LoRA o ajuste completo, a marcos multiagente como MoA y TextGrad, y a métodos recursivos como LoopLM y Recursive-TextMAS. En la tabla principal, el sistema obtuvo 88,0 en MATH500, 86,7 en AIME2025, 86,7 en AIME2026, 66,2 en GPQA-Diamond, 42,9 en LiveCodeBench y 79,3 en MedQA.

El trabajo resalta mejoras especialmente fuertes en tareas intensivas en razonamiento. Frente a la línea base más fuerte por benchmark, las ganancias reportadas incluyen 18,1% en AIME2025, 13,0% en AIME2026 y 5,4% en GPQA-Diamond. Esto sugiere que el enfoque podría ser más útil allí donde la colaboración iterativa entre agentes sí añade valor real.

Otro aspecto interesante es la generalización a distintos patrones de colaboración. En el esquema mixture-style, RecursiveMAS superó en promedio en 6,2% al especialista individual más fuerte. En el modo deliberation-style, mejoró al agente con herramientas en 4,8%. Y en el modo distillation-style, elevó al learner en 8,0% mientras conservó una ventaja de velocidad de 1,5x frente al expert.

Los investigadores también analizaron el diseño del propio RecursiveLink. La variante elegida, una proyección residual de dos capas, fue la más sólida frente a alternativas más simples. En GPQA-Diamond, por ejemplo, la versión residual de una capa mejoró de 63,2% a 65,3%, y la variante residual de dos capas alcanzó 66,2%.

En costo de entrenamiento, RecursiveMAS también salió bien parado. Según la tabla comparativa, necesitó 15,29 GB de memoria máxima de GPU, 13,12 millones de parámetros entrenables y un costo estimado de USD $4,27, frente a 21,67 GB y USD $6,64 para LoRA, y 41,40 GB y USD $9,67 para ajuste completo. Aun así, registró la mayor precisión promedio entre los métodos comparados, con 74,9.

Por qué importa este avance

Para lectores menos familiarizados con este campo, la relevancia del trabajo está en que abre una nueva vía de escalado para sistemas agentivos. Hasta ahora, buena parte de la discusión sobre IA se ha centrado en entrenar modelos más grandes o permitirles usar más cómputo en tiempo de inferencia. RecursiveMAS sugiere que también puede crecer el rendimiento optimizando cómo colaboran varios modelos entre sí.

Eso tiene implicaciones directas para agentes de software, asistentes especializados, automatización empresarial y herramientas que deban combinar planeación, crítica, búsqueda, uso de herramientas y ejecución de código. Si una coordinación más barata y rápida en espacio latente mantiene o mejora la calidad, la propuesta podría resultar atractiva para productos comerciales y despliegues de investigación.

Por ahora, el trabajo sigue siendo una demostración académica, no un producto comercial. Aun así, sus resultados aportan una señal clara: la comunicación textual entre agentes podría no ser el destino final de los sistemas multiagente avanzados. El siguiente salto quizá pase por canales latentes más eficientes, donde la deliberación ocurra en representaciones internas y no en tokens visibles hasta el último momento.

En otras palabras, RecursiveMAS no solo plantea una mejora incremental. También redefine la pregunta sobre cómo deben colaborar los agentes de IA cuando la prioridad es combinar profundidad de razonamiento con eficiencia operativa. Si los hallazgos se sostienen en implementaciones posteriores, el concepto podría influir en la próxima generación de arquitecturas agentivas.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín