Por Canuto  

Alibaba presentó Qwen3.7-Max, un nuevo modelo de inteligencia artificial enfocado en agentes autónomos capaces de ejecutar tareas complejas durante horas, automatizar flujos empresariales y optimizar código de forma independiente.
***

  • Qwen3.7-Max completó una optimización autónoma de kernels durante 35 horas y más de 1.000 llamadas a herramientas
  • Alibaba afirma que el modelo supera o iguala a rivales como Claude Opus, DeepSeek y GLM en múltiples benchmarks
  • El sistema fue diseñado para la “era de los agentes”, con foco en automatización, programación y productividad empresarial

Alibaba dio un nuevo paso en la carrera global por los modelos de inteligencia artificial avanzados con la presentación de Qwen3.7-Max, una versión enfocada específicamente en agentes autónomos capaces de ejecutar tareas complejas durante largos períodos sin supervisión humana.

Según explicó el equipo de Qwen, el modelo fue diseñado como una “base versátil para la era de los agentes”, con capacidades orientadas a programación, automatización de flujos de oficina y ejecución autónoma sostenida.

La compañía aseguró que Qwen3.7-Max puede operar de forma consistente a través de distintos frameworks y entornos de agentes, incluyendo Claude Code, OpenClaw y Qwen Code. El objetivo, según Alibaba, es que el modelo funcione como una infraestructura adaptable para sistemas autónomos de IA empresariales y de desarrollo de software.

El anuncio ocurre en medio de una competencia cada vez más intensa entre compañías estadounidenses y chinas por dominar la nueva generación de modelos de IA capaces no solo de responder preguntas, sino también de ejecutar tareas reales mediante herramientas externas, APIs, navegación web, terminales y automatización de sistemas.

Durante los últimos meses, firmas como OpenAI, Anthropic, Google, DeepSeek y Moonshot AI han acelerado el desarrollo de agentes autónomos con memoria, razonamiento extendido y capacidad para interactuar directamente con entornos digitales complejos.

Alibaba apunta a la automatización autónoma

Uno de los principales aspectos destacados por Alibaba fue la capacidad de Qwen3.7-Max para sostener procesos autónomos durante períodos extremadamente largos.

La empresa describió un experimento en el que el modelo ejecutó una optimización de kernels durante aproximadamente 35 horas continuas, realizando 1.158 llamadas a herramientas y 432 evaluaciones de kernels.

De acuerdo con la explicación técnica, el sistema trabajó sobre un entorno desconocido para el modelo, sin documentación previa de hardware ni ejemplos preexistentes. El agente debía optimizar un operador de atención multi-head utilizado en SGLang para inferencia de modelos de lenguaje.

Alibaba afirmó que el modelo logró un aumento geométrico de velocidad de 10 veces respecto a la implementación de referencia basada en Triton.

La compañía comparó además los resultados obtenidos por Qwen3.7-Max frente a otros modelos rivales bajo las mismas condiciones. Según los datos presentados, GLM 5.1 alcanzó un aumento de 7,3x, Kimi K2.6 obtuvo 5x y DeepSeek V4 Pro llegó a 3,3x.

Alibaba sostuvo que el comportamiento del modelo demuestra dos capacidades clave para la siguiente generación de agentes autónomos: razonamiento sostenido durante miles de pasos y generalización contextual frente a hardware o entornos nunca vistos anteriormente.

La empresa también destacó que el modelo mostró avances importantes en “cross-harness generalization”, una técnica diseñada para evitar que los agentes aprendan únicamente a explotar frameworks específicos. Según el informe, Qwen3.7-Max mantuvo resultados sólidos independientemente del entorno de evaluación utilizado.

Benchmarks y desempeño frente a modelos rivales

Alibaba publicó una larga lista de benchmarks comparando Qwen3.7-Max frente a modelos como Opus-4.6 Max, DeepSeek V4 Pro Max, GLM-5.1 Thinking y K2.6 Thinking.

En programación y agentes de software, Qwen3.7-Max obtuvo 69,7 puntos en Terminal Bench 2.0-Terminus, superando los 67,9 puntos de DeepSeek V4 Pro Max.

En SWE-Pro, un benchmark relacionado con ingeniería de software, el modelo alcanzó 60,6 puntos, por encima de Opus-4.6 Max con 57,3 y DeepSeek V4 Pro Max con 59 puntos.

Alibaba también destacó resultados en tareas de razonamiento avanzado. Qwen3.7-Max registró 92,4 puntos en GPQA Diamond y 41,4 en HLE, superando los resultados publicados para Opus-4.6 Max en ambas pruebas.

En capacidades multilingües, el modelo logró 85,8 puntos en WMT24++ y 89,2 en MAXIFE.

Alibaba afirmó además que el modelo alcanzó una puntuación de 87 en SpreadSheetBench-v1, una prueba enfocada en automatización de tareas de oficina y productividad empresarial.

La compañía aseguró que el sistema fue entrenado utilizando una estrategia de “environment scaling”, aumentando agresivamente la diversidad y complejidad de los entornos agentivos utilizados durante el entrenamiento.

Según el reporte, esto permitiría que el modelo generalice capacidades reales en lugar de optimizarse únicamente para benchmarks específicos.

La carrera por los agentes de IA

La presentación de Qwen3.7-Max refleja cómo la industria de inteligencia artificial está migrando desde chatbots tradicionales hacia sistemas capaces de actuar autónomamente en entornos reales.

En lugar de limitarse a responder consultas, estos modelos buscan ejecutar proyectos completos mediante herramientas externas, terminales, edición de archivos y automatización de procesos empresariales.

Alibaba mostró ejemplos donde Qwen3.7-Max reformatea tesis universitarias utilizando herramientas de oficina, genera aplicaciones frontend completas desde un solo prompt y controla un robot cuadrúpedo mediante llamadas a herramientas.

La empresa también presentó un benchmark denominado YC-Bench, diseñado para simular el ciclo anual de una startup. Allí, el modelo habría alcanzado ingresos simulados por USD $2,08 millones y completado 237 tareas.

El lanzamiento se produce en un contexto donde compañías chinas intentan reducir la brecha frente a OpenAI y Anthropic, especialmente en áreas relacionadas con agentes autónomos y automatización empresarial.

Durante 2025 y 2026, China aceleró significativamente la producción de modelos frontier mediante empresas como Alibaba, DeepSeek, Moonshot AI y Zhipu AI, impulsadas además por infraestructura local de GPUs, servicios cloud y apoyo gubernamental estratégico.

Alibaba indicó que Qwen3.7-Max ya está disponible mediante Alibaba Cloud Model Studio y puede integrarse con APIs compatibles con OpenAI y Anthropic.

La compañía también confirmó soporte para frameworks como Claude Code y OpenClaw, mostrando cómo el ecosistema de agentes comienza a converger sobre estándares compartidos de herramientas y ejecución autónoma.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín