Por Canuto  

Un grupo de investigadores propuso ProCeedRL, un nuevo marco de aprendizaje por refuerzo para agentes basados en modelos de lenguaje que busca corregir errores en tiempo real, reducir el impacto del ruido contextual y mejorar el desempeño en tareas complejas de búsqueda profunda y planificación embodied.
***

  • ProCeedRL usa un crítico a nivel de proceso para detectar pasos defectuosos durante la interacción del agente con su entorno.
  • El método rebobina acciones problemáticas y las sustituye por demostraciones refinadas antes de que el error se propague.
  • En pruebas sobre búsqueda profunda y ALFWorld, el sistema superó a varios enfoques basados en muestreo repetido estándar.


Los agentes de inteligencia artificial basados en grandes modelos de lenguaje han avanzado con fuerza gracias al aprendizaje por refuerzo. Sin embargo, cuando deben operar durante varios turnos, usar herramientas externas o interactuar con entornos cambiantes, los errores pequeños pueden crecer con rapidez y comprometer toda la tarea.

Ese es el problema que aborda ProCeedRL: Process Critic with Exploratory Demonstration Reinforcement Learning for LLM Agentic Reasoning, un trabajo firmado por Jingyue Gao, Yanjiang Guo, Xiaoshuai Chen y Jianyu Chen. La investigación plantea que, en tareas agenticas de largo horizonte, una acción subóptima puede provocar observaciones ruidosas o engañosas, contaminar el contexto y deteriorar las decisiones siguientes.

La propuesta se apoya en una idea central: pasar de una exploración pasiva, basada en repetir muestras hasta hallar una trayectoria válida, a una intervención activa sobre el proceso. En vez de esperar el resultado final para penalizar una secuencia fallida, el sistema vigila cada paso y corrige el rumbo cuando detecta una decisión adversa.

Para lectores menos familiarizados con el tema, este tipo de trabajo se ubica en la frontera entre IA generativa, razonamiento automatizado y agentes capaces de usar herramientas. Es una línea relevante para asistentes que buscan en la web, sistemas de investigación profunda y robots o agentes embodied que deben completar tareas multietapa en entornos simulados o físicos.

El problema del círculo vicioso en agentes de IA

Los autores describen un fallo estructural en la exploración agentica. Cuando el modelo toma una acción deficiente, como una consulta de búsqueda vaga o equivocada, el entorno responde con información irrelevante o engañosa. Esa respuesta se añade al contexto y pasa a influir en las siguientes decisiones del agente.

El resultado es un círculo vicioso. La acción pobre introduce ruido, el ruido degrada el razonamiento y ese deterioro lleva a nuevas acciones de menor calidad. Según el estudio, la recuperación se vuelve cada vez más difícil a medida que avanza la interacción, sobre todo en tareas largas y estocásticas.

Para examinar este fenómeno, los investigadores compararon distintos modelos en preguntas y respuestas asistidas por búsqueda bajo diferentes niveles de ruido ambiental. Evaluaron a Qwen3-8B y Qwen3-30B-A3B-Thinking-2507 usando dos configuraciones de búsqueda: una con el motor comercial You y otra más ruidosa con un recuperador local denso basado en Wikipedia.

Los resultados mostraron caídas de rendimiento en ambos modelos cuando el entorno era más ruidoso. El descenso promedio reportado fue de -6,01% y -9,59%, y el modelo más débil sufrió una degradación mayor. Según el trabajo, eso respalda la idea de que los agentes con menor capacidad de razonamiento son más vulnerables al ruido contextual y a la acumulación de errores.

Cómo funciona ProCeedRL

El núcleo de ProCeedRL es un crítico a nivel de proceso, identificado en el artículo como ϕ. En cada paso, ese crítico evalúa la acción recién tomada y, cuando es posible, también la observación devuelta por el entorno. Luego emite una puntuación entera y una crítica textual para juzgar la calidad de la decisión.

Si la puntuación cae por debajo de un umbral predefinido, el sistema interpreta que la acción es adversa. En ese punto activa una intervención. El agente rebobina el paso, recibe una demostración refinada generada por una política de refinamiento, identificada como µ, y vuelve a ejecutar la etapa con una acción mejorada.

Los autores sostienen que este mecanismo poda acciones inválidas antes de que el contexto quede contaminado. En lugar de dejar que la trayectoria defectuosa continúe y se evalúe solo al final, ProCeedRL intenta bloquear la propagación del error en tiempo real.

Otra característica destacada es que el método busca internalizar esas correcciones durante el entrenamiento. Eso significa que, una vez aprendido el comportamiento, el modelo no necesita obligatoriamente un pipeline extra de crítica en tiempo de prueba, aunque usarlo puede seguir mejorando el razonamiento.

El estudio también subraya que el marco es agnóstico al modelo. Tanto el crítico como el refinador pueden implementarse con modelos externos potentes o con el propio modelo de política. En varios experimentos, incluso la configuración de autocrítica produjo mejoras relevantes.

Resultados en búsqueda profunda y tareas embodied

La investigación evaluó ProCeedRL en dos familias de tareas desafiantes. La primera fue búsqueda profunda o search augmented QA, donde un modelo debe planificar consultas, usar un buscador y responder preguntas de varios saltos. La segunda fue ALFWorld, un benchmark embodied en el que el agente resuelve tareas domésticas de largo horizonte.

Para entrenamiento en búsqueda profunda, el equipo construyó un subconjunto curado de 4.000 pares de preguntas y respuestas a partir de HotpotQA. Luego probaron el sistema en MuSiQue, WebWalkerQA, GAIA, Frames y Bamboogle. En esos experimentos también se apoyaron en ReAct para estructurar la interacción entre razonamiento y acción.

Con Qwen3-8B como base, ProCeedRL alcanzó 73,87% en Bamboogle, 29,52% en MuSiQue, 46,42% en Frames, 13,79% en GAIA y 23,01% en WebWalkerQA. En la mayoría de esos casos superó a referencias como ReAct Prompting, SFT, RFT y DAPO o Search-R1 bajo las condiciones controladas del estudio.

En comparación, ReAct Prompting registró 50,93% en Bamboogle, 18,64% en MuSiQue, 31,92% en Frames, 9,69% en GAIA y 18,62% en WebWalkerQA. Qwen3-8B-v3-SFT logró 62,13%, 20,07%, 37,50%, 10,51% y 19,85%, mientras que +RFT obtuvo 64,27%, 22,49%, 40,65%, 14,98% y 19,56%.

El enfoque +DAPO o Search-R1 llegó a 70,83% en Bamboogle, 23,60% en MuSiQue, 43,59% en Frames, 10,10% en GAIA y 19,51% en WebWalkerQA. Frente a ello, ProCeedRL mostró una mejora promedio de 3,72% en búsqueda profunda, con una ventaja especialmente marcada en MuSiQue, una prueba conocida por su complejidad de razonamiento multihop.

En ALFWorld, los resultados también fueron favorables. Con Qwen3-1.7B, el modelo base logró 11,07% en la partición in distribution y 12,69% en out of distribution. DAPO subió a 18,69% y 24,12%, mientras ProCeedRL alcanzó 20,35% y 23,33%.

Con Qwen3-8B, el modelo base obtuvo 44,22% y 47,07%. RFT llegó a 47,38% y 50,25%. DAPO marcó 45,23% y 53,24%. ProCeedRL avanzó a 51,43% y 55,22%, y una variante llamada ProCeedSFT registró 57,14% y 58,95%, lo que implicó una mejora superior a 10% en ese benchmark cuando se combinó con ajuste supervisado.

Eficiencia de exploración, costos y límites

Uno de los argumentos centrales del trabajo es que ProCeedRL no solo mejora resultados, sino que también eleva la eficiencia de exploración. Los autores compararon el pass@k de su método frente al muestreo repetido tradicional en ALFWorld, ajustando el costo computacional para que la comparación fuese equivalente en generación.

Según sus cálculos, una trayectoria ProCeed cuesta aproximadamente 2,5 trayectorias estándar para modelos de 8B y 1,8 trayectorias para modelos de 1,7B. Aun con ese sobrecosto, el enfoque habría igualado la precisión de pass@k usando muchas menos generaciones y, en ciertos casos, superado el techo de saturación del muestreo vanilla con apenas 2 o 8 muestras, según el tamaño del modelo.

Ese punto es importante porque una crítica recurrente al aprendizaje por refuerzo en LLMs es que, con frecuencia, extrae más rendimiento del modelo base sin romper realmente su límite de capacidad. Los autores argumentan que, al intervenir durante el proceso y no solo seleccionar trayectorias al final, ProCeedRL logra aprender más allá del límite de exploración inherente del modelo bajo muestreo independiente.

El estudio también examinó el tipo de crítico usado. Probaron autocrítica, un crítico homogéneo de la misma familia y un crítico externo. En sus pruebas sobre Frames, WebWalkerQA y ALFWorld, todas las variantes mejoraron la exactitud del rollout frente a no usar crítico, lo que sugiere que el beneficio proviene del pipeline de corrección y no únicamente de incorporar un modelo más fuerte.

No obstante, la investigación reconoce limitaciones. El método añade una sobrecarga computacional por paso, ya que cada interacción puede requerir crítica y refinamiento. Además, no existe garantía teórica de mejora en todos los casos, porque el sistema depende del conocimiento interno del LLM para identificar y corregir acciones problemáticas.

Los autores señalan además que refinar demasiados pasos puede ser contraproducente. En sus ablaciones, la precisión mejoró cuando se corregían acciones de baja puntuación, pero los beneficios se redujeron al elevar demasiado el umbral de rebobinado. Forzar reflexión sobre acciones ya aceptables podía introducir confusión y degradar el rendimiento.

En síntesis, ProCeedRL propone una salida concreta a uno de los cuellos de botella más complejos en agentes de IA: la acumulación de errores en tareas largas. Si futuros trabajos confirman estos hallazgos a mayor escala y en entornos más abiertos, el enfoque podría convertirse en una pieza relevante para agentes de búsqueda, asistentes autónomos y sistemas de razonamiento con herramientas.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín