Qwen presentó AgentWorld, un modelo de mundo de lenguaje diseñado para simular siete tipos de entornos de agentes dentro de un solo sistema. La propuesta no solo apunta a mejorar la fidelidad de simulación frente a modelos rivales, sino también a replantear cómo se entrenan los agentes de IA: aprender a predecir el siguiente estado del entorno antes de actuar.
***
- Qwen-AgentWorld fue presentado como un modelo nativo de simulación de entornos para agentes en 7 dominios, incluyendo Terminal, Web, Android y búsqueda.
- El equipo afirma que su versión Qwen-AgentWorld-397B-A17B logró la mejor puntuación global en AgentWorldBench con 58,71 puntos, por delante de GPT-5.4.
- La investigación sostiene que los modelos de mundo pueden servir tanto como simuladores desacoplados para RL como base unificada para crear agentes más fuertes.
Qwen presentó una nueva familia de modelos de inteligencia artificial llamada Qwen-AgentWorld, orientada a simular cómo responden distintos entornos cuando interactúan con agentes de IA. La propuesta cubre siete dominios dentro de un solo modelo: MCP, búsqueda, Terminal, ingeniería de software, Web, OS y Android.
La apuesta es importante porque intenta cubrir una pieza que muchos laboratorios han tratado como secundaria. En vez de concentrarse solo en el “agente” que decide acciones, Qwen quiere entrenar también un “modelo de mundo” capaz de anticipar qué ocurrirá después de cada acción.
Para lectores menos familiarizados con el tema, un modelo de mundo busca predecir la dinámica del entorno a partir de observaciones y acciones previas. En términos simples, intenta responder qué debería pasar después si un agente ejecuta un comando, abre una página, consulta una herramienta o toca un botón.
Según explicó @Alibaba_Qwen, la modelización del entorno fue tratada como objetivo de entrenamiento desde el inicio y no como una adaptación posterior. Esa es una de las ideas centrales detrás de AgentWorld.
El anuncio llega en un momento en que la industria compite por construir agentes más autónomos, capaces de usar herramientas, navegar interfaces y resolver tareas complejas. En ese contexto, la capacidad de simular el mundo con fidelidad podría convertirse en una ventaja estratégica para entrenar mejores sistemas sin depender siempre de entornos reales.
Qué es Qwen-AgentWorld y por qué importa
El trabajo Qwen-AgentWorld: Language World Models for General Agents, firmado por el Qwen Team, plantea que los agentes generales necesitan dos componentes complementarios. Uno decide acciones a partir del estado actual y el otro predice el siguiente estado del entorno en función de la acción ejecutada.
Los autores sostienen que la investigación sobre agentes de lenguaje se ha concentrado casi exclusivamente en el primer componente. Por eso plantean que la modelización del mundo es la pieza faltante para avanzar hacia agentes de propósito general más robustos.
Qwen-AgentWorld fue desarrollado como un modelo nativo de mundo de lenguaje capaz de simular siete clases de entornos mediante razonamiento de cadena larga. Para los dominios con interfaz gráfica, la observación no se representa como píxeles, sino como árboles de accesibilidad y jerarquías de vistas de la interfaz.
El sistema fue entrenado con más de 10 millones de trayectorias de interacción ambiental procedentes de siete dominios. El pipeline usó tres etapas: CPT para inyectar capacidades generales de modelización del mundo, SFT para activar el razonamiento de predicción del siguiente estado y RL para afinar la fidelidad de la simulación.
El equipo presentó dos versiones principales del modelo. Una es Qwen-AgentWorld-35B-A3B, abierta como software de código abierto según el anuncio del propio proyecto, y la otra es Qwen-AgentWorld-397B-A17B, una versión de mayor escala con la que reportan sus mejores resultados.
El benchmark con el que Qwen midió su propuesta
Para evaluar la calidad de estos modelos, el equipo construyó AgentWorldBench. Se trata de un benchmark de 2.170 muestras de evaluación a nivel de turno, repartidas en siete dominios y alimentadas con observaciones de verdad fundamental obtenidas desde entornos reales.
La construcción del benchmark se basó en trayectorias de cinco modelos de frontera ejecutados sobre nueve benchmarks ya establecidos. Entre los entornos incluidos aparecen Tool Decathlon, Terminal-Bench 1.0 y 2.0, OSWorld-Verified, WideSearch y otros conjuntos de pruebas de uso conocido en la industria.
AgentWorldBench mide cinco dimensiones: formato, factualidad, consistencia, realismo y calidad. El objetivo es evaluar si la salida simulada no solo luce creíble, sino si coincide con la estructura, los hechos y la evolución esperada del entorno real.
En los resultados principales, Qwen-AgentWorld-397B-A17B obtuvo un promedio global de 58,71 puntos. El estudio indica que esa cifra supera a GPT-5.4, que logró 58,25, y también queda por encima del resto de modelos comparados en el promedio general.
La ventaja fue más clara en dominios de texto. En ese bloque, Qwen-AgentWorld-397B-A17B alcanzó 58,07 frente a 56,84 de GPT-5.4, con mejoras destacadas en Terminal, donde marcó 57,73 frente a 53,69, y en SWE, con 68,49 frente a 66,29.
En los dominios con interfaz gráfica, la historia fue distinta. Claude Opus 4.8 y Claude Opus 4.6 lideraron el segmento GUI, mientras que Qwen-AgentWorld-397B-A17B quedó en quinto lugar con 59,69, un resultado que el propio estudio atribuye a la ventaja que todavía aporta el preentrenamiento multimodal.
Cómo se entrenó el modelo y qué aprendió
El trabajo describe un esquema de entrenamiento resumido en una frase: “CPT injects, SFT activates, RL sharpens”. La primera fase buscó incorporar conocimiento del mundo y de la dinámica de transición de estados; la segunda hizo explícito el razonamiento de predicción del siguiente estado; la tercera ajustó la fidelidad mediante aprendizaje por refuerzo.
Durante el entrenamiento se usaron trayectorias de entornos reales, trazas abiertas de interacción y trayectorias internas generadas por sistemas agentivos propios. Además, la fase CPT incorporó corpus especializados en dominios como manufactura, ciberseguridad, derecho, medicina, finanzas y actualidad.
Esa decisión apunta a un problema concreto. Un simulador de herramientas o entornos complejos no puede depender solo de ejemplos de interacción, porque necesita conocimiento factual del mundo para responder de forma consistente cuando el agente consulta información profesional o especializada.
En SFT, el equipo utilizó una ventana de contexto de hasta 256.000 tokens para manejar trayectorias largas. También diversificó los prompts del sistema y aplicó un proceso de rechazo de muestras para curar mejores trazas de razonamiento antes del ajuste fino.
En RL, los investigadores diseñaron una recompensa híbrida con dos señales. Una provino de un juez de lenguaje que evaluaba la salida en cinco dimensiones y la otra de verificadores basados en reglas que emitían señales binarias de corrección.
El trabajo también afirma que RL mejoró aspectos finos de la simulación, como identificadores de URLs, aritmética a nivel de bytes en terminal y consistencia de esquemas API entre múltiples llamadas. Esos detalles sugieren que el ajuste no solo optimizó respuestas vistosas, sino microcomportamientos relevantes para tareas reales.
Dos caminos para usar modelos de mundo en agentes
La investigación separa dos paradigmas. El primero usa el modelo de mundo como simulador desacoplado, es decir, como entorno artificial donde se puede entrenar por refuerzo a otro agente de manera escalable y controlable.
El segundo unifica ambas funciones en un solo sistema. Bajo esa visión, el mismo modelo que actúa como agente también internaliza la capacidad de predecir el siguiente estado del entorno, lo que le permitiría planificar mejor antes de ejecutar una acción.
En el paradigma desacoplado, Qwen-AgentWorld fue usado para simular 4.000 entornos OpenClaw fuera de distribución. Según los resultados reportados, eso permitió mejorar Claw-Eval de 65,4 a 69,7, un alza de 4,3 puntos, y QwenClawBench de 47,9 a 55,0, un aumento de 7,1 puntos.
El estudio sostiene que la controlabilidad fue decisiva. En MCP, la simulación estándar sin instrucciones de control no produjo mejoras significativas, mientras que la simulación controlada elevó Tool Decathlon de 32,4 a 36,1 y MCPMark de 21,5 a 33,8, con una mejora de 12,3 puntos en este último.
En búsqueda, el equipo fue aún más lejos. Construyó 1.000 mundos ficticios autocontenidos y entrenó agentes dentro de esos entornos para obligarlos a buscar, cruzar fuentes y agregar información, en vez de responder desde memoria paramétrica.
Ese enfoque dejó una mejora de 16,29 puntos en F1 por ítem sobre WideSearch para Qwen3.5-35B-A3B-SFT, que pasó de 34,02 a 50,31. En Qwen3.5-397B-A17B-SFT también hubo ganancias, con F1 por ítem de 70,11 a 73,98 y F1 por fila de 45,69 a 51,74.
El modelo de mundo como base del propio agente
La segunda gran tesis del trabajo es que el entrenamiento en modelización del mundo también sirve como calentamiento para el agente mismo. Aquí no se trata de entrenar una política separada dentro de un simulador, sino de usar la predicción del entorno como capacidad interna transferible.
Los autores probaron esta idea con LWM RL sobre Qwen3.5-35B-A3B-SFT y luego evaluaron el mismo modelo en tareas agentivas de múltiples turnos y llamadas a herramientas. Lo hicieron sin ajuste posterior específico de tarea y sin RL adicional para el agente.
Los resultados mostraron mejoras en siete benchmarks. Terminal-Bench 2.0 subió de 33,25 a 39,55, SWE-Bench Verified pasó de 64,47 a 67,86, SWE-Bench Pro de 42,18 a 47,42 y WideSearch en F1 por ítem de 33,38 a 46,17.
También hubo transferencia fuera de dominio. Claw-Eval mejoró de 53,60 a 64,88, QwenClawBench de 39,76 a 49,43 y BFCL v4 de 62,29 a 71,25, lo que implicó una mejora promedio de 8,96 puntos en el conjunto de pruebas mostrado.
Para explicar ese efecto, el trabajo argumenta que el modelo aprende a “predecir antes de actuar”. En una medición interna sobre trayectorias de Terminal-Bench 2.0, la precisión de predicción del entorno aumentó de 69,9% a 78,3% después de LWM RL, una ganancia de 8,4 puntos porcentuales.
Ese hallazgo importa porque sugiere que la ventaja no proviene solo de memorizar formatos. La hipótesis es que el agente mejora porque puede simular mentalmente respuestas del entorno, detectar que una vía fallará y elegir mejor la siguiente acción.
Qué publicó Qwen y qué implica para la competencia en IA
Además del paper y los resultados, Qwen anunció la liberación de Qwen-AgentWorld-35B-A3B y de AgentWorldBench. La versión abierta fue descrita como un modelo MoE de 35B con 3B activos y contexto de 256K.
La estrategia tiene dos lecturas. Una es técnica: ofrecer herramientas para que otros laboratorios experimenten con simulación de entornos, entrenamiento controlable y evaluación comparativa de modelos de mundo.
La otra es competitiva. Qwen intenta posicionarse en una capa distinta de la carrera de IA, no solo como creador de modelos conversacionales o de agentes, sino como proveedor de infraestructura cognitiva para que esos agentes ensayen, fallen y aprendan en mundos simulados.
Para una audiencia interesada en IA aplicada a mercados, software y automatización, esto también abre una pregunta económica. Si un modelo de mundo reduce dependencia de entornos reales costosos, inseguros o irreversibles, podría abaratar parte del entrenamiento y acelerar el despliegue de agentes especializados.
Sin embargo, el propio trabajo deja ver límites claros. Search siguió siendo el dominio más difícil para todos los modelos, y en interfaces gráficas los sistemas con ventaja multimodal aún marcaron distancia en varias pruebas.
Aun así, la tesis de fondo es potente. Si la próxima generación de agentes no solo ejecuta acciones, sino que aprende a anticipar con más fidelidad lo que el mundo hará después, la frontera competitiva podría desplazarse desde el simple uso de herramientas hacia la simulación interna del entorno.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Empresas
Reid Hoffman arremete contra xAI y niega que SpaceX sea una empresa de IA
Bitcoin
Strategy enfrenta presión para frenar compras de Bitcoin y reconstruir caja
Empresas
Inversores de Voyager Digital apelan ante tribunal e insisten en demanda contra Mark Cuban
Empresas