Por Canuto  

Estamos en punto de inflexión en la “carrera armamentista” de agentes de IA: el lanzamiento de Qwen 3 coder next por parte del equipo Qwen de Alibaba. El modelo combina mezcla de expertos, una arquitectura híbrida para contexto largo y un entrenamiento con retroalimentación real de compiladores y pruebas, con el objetivo de acelerar el “vibe coding” y abaratar su ejecución, incluso de forma local y bajo licencia Apache 2.0.
***

  • Qwen 3 coder next se presentó el 3 de febrero de 2026 y prioriza “smarter is faster” y “smarter is cheaper” frente a la tendencia de modelos cada vez más grandes.
  • Es un modelo de 80.000 millones de parámetros totales con mezcla de expertos, pero activa cerca de 3.000 millones por token, con la promesa de mayor throughput y menor costo de cómputo.
  • 262.144 tokens de contexto, un pipeline de 800.000 tareas verificables con contenedores, y resultados como 70,6% en SWE-bench Verified y 61,2% en SetCodeBench.

 


Un “vibe shift” en la IA: de chatbots a control del entorno de desarrollo

La velocidad de anuncios “se siente violenta” y la enmarcan como lo que, en su opinión, será recordado como una “carrera armamentista” de agentes. En ese contexto, plantean que ya no se trata solo de tener el chatbot más capaz, sino de “controlar todo el entorno de desarrollo”.

En este video, el frente principal se convirtió en una “batalla por el teclado”. El punto no es solo el razonamiento de los modelos, sino su integración con IDEs, herramientas, compiladores y flujos de trabajo. El video contrasta dos bandos: por un lado, “titanes de la nube” que empujan modelos propietarios; por el otro, una facción que prioriza ejecución local, privacidad y pesos abiertos.

Dentro de los ejemplos del “bando nube”, la transcripción menciona que Anthropic lanzó Claude Opus 4.6 con “1 millón de tokens” de contexto y “agent teams”. También afirma que OpenAI respondió con “GPT 5.3 Codeex” y un “desktop command center”, con Apple como “kingmaker” al integrar ambos en “Xcode 26.3”. El relato sugiere que, para desarrolladores empresariales en el ecosistema Apple, esa integración sería un movimiento de enorme impacto.

En el “bando local”, el video menciona a “Mistral en París” con “Voxil Transcribe 2” orientado a privacidad total en dispositivo. También cita a Moonshot en China con “Kimi K2.5”, descrito como un “open-weight beast”. En medio de ese ruido, incluyendo menciones a anuncios del Super Bowl y disputas de CEOs en redes sociales, los presentadores subrayan un lanzamiento que consideran más importante que el resto.

Qwen 3 coder next: el anuncio del 3 de febrero y el enfoque “más rápido y más barato”

Según la transcripción, el 3 de febrero de 2026 el equipo Qwen, dentro de Alibaba, publicó “Qwen 3 coder next”. Los presentadores lo describen como una jugada que “voltea el tablero” porque no compite en la lógica de “más grande es mejor”. En cambio, lo presentan como una apuesta por “más inteligente es más rápido” y, sobre todo, “más inteligente es más barato”.

El video asocia este enfoque con un objetivo económico: alterar los costos de construir software con IA. En su versión, el modelo busca ofrecer “razonamiento de gigante” con “velocidad de sprinter”. Esa promesa se conecta con un fenómeno que, según el diálogo, se volvió un flujo por defecto para muchos desarrolladores: el “vibe coding”.

En la transcripción, “vibe coding” se define como describir la funcionalidad o “la vibra” de una aplicación y esperar que la IA implemente los detalles. El problema, sostienen, es que este modo de trabajo crea un bucle continuo: generar código, ejecutarlo, encontrar errores, pegar el error en el chat y repetir. En ese ciclo, la latencia rompe el “flow state”, por lo que el throughput, medido en tokens por segundo, pasa a ser una métrica crítica para agentes.

Desde esa premisa, los presentadores plantean que Qwen 3 coder next intenta resolver una paradoja: potencia alta sin el costo y lentitud de un modelo denso grande. Ese es el punto de arranque para explicar su arquitectura y por qué, según el video, puede acelerar la iteración que necesita un agente para verificar su propio trabajo.

Mezcla de expertos: 80.000 millones totales, 3.000 millones activos por token

El diálogo afirma que, “en papel”, Qwen 3 coder next es un modelo de 80.000 millones de parámetros. En el “mundo antiguo”, señalan, un tamaño así suele implicar lentitud y costos altos de ejecución. Sin embargo, el video atribuye al modelo un rendimiento muy rápido, y explica que la clave estaría en una arquitectura de mezcla de expertos.

Para describirlo, la transcripción usa una analogía: un bufete con 80 abogados especializados, pero en cada caso solo atienden el experto relevante y quizá un segundo perfil. En su explicación, por cada token que genera, Qwen 3 coder next activaría cerca de 3.000 millones de parámetros. Eso, según el video, reduce el costo de cómputo efectivo hacia el rango de un modelo mucho más pequeño.

Los interlocutores conectan ese número con un “sweet spot” que facilitaría ejecución a gran velocidad incluso en hardware de consumo o dispositivos de borde. Además, el video menciona una promesa de “10x higher throughput” frente a un modelo denso del mismo tamaño total, lo que cambiaría la dinámica del bucle de prueba y error del vibe coding.

En esa lógica, un agente que tarda un minuto en verificar una línea de código es poco útil, pero uno que lo hace en un segundo se vuelve una ventaja competitiva. La tesis que plantea la transcripción es que la agentic capability depende tanto de la capacidad de razonar como de la rapidez para ejecutar, compilar, correr pruebas y corregir.

Licencia Apache 2.0 y el choque con los modelos “en renta”

Otro punto central del relato es el modelo de distribución. La transcripción afirma que Qwen 3 coder next se publica con licencia Apache 2.0, lo que contrasta con la naturaleza cerrada de servicios donde “rentas” inteligencia. El argumento es que esto habilita a empresas, startups e incluso desarrolladores individuales a ajustar el modelo con datos propios y ejecutarlo localmente.

Según el video, ese enfoque reduce el intercambio de datos sensibles con APIs de terceros. También lo presenta como un mecanismo que “comoditiza” el nivel de “junior engineer tier” de IA, al poner capacidades avanzadas en manos de muchos actores. En el marco del debate nube versus local, esto se interpreta como un impulso para la “local AI movement”.

Los presentadores sostienen que el mercado podría bifurcarse: “cloud brains” para cargas pesadas y “local experts” que viven dentro del terminal y operan con iteración rápida. En esa visión, para muchos equipos la velocidad y el throughput pueden ser más valiosos que el “raw IQ” de un modelo más grande que responde lento.

La transcripción lo resume como un cambio de criterio: el tamaño del modelo sería menos relevante que su capacidad para verificar su trabajo de forma continua. Aun así, el video no niega el rol de los modelos en la nube; más bien, los ubica en un segmento distinto del mapa competitivo.

El muro del contexto: 262.144 tokens y una arquitectura híbrida con “gated deltanet”

El video también discute un segundo cuello de botella para agentes: el contexto o memoria. La transcripción describe el costo cuadrático de la atención en transformadores tradicionales: al duplicar la longitud de entrada, el costo no solo se duplica, sino que se cuadruplica. En software, esto se vuelve crítico porque leer codebases completos puede ser prohibitivo, sobre todo en ejecución local.

Según el relato, Qwen 3 coder next hibridiza su arquitectura con “gated deltanet” junto a “gated attention”. Para explicarlo, comparan al transformador con un taquígrafo que registra todo el juicio y debe releerlo completo para responder. En contraste, deltanet sería como un juez que mantiene un estado, una síntesis actualizada, que se ajusta con cada nueva evidencia.

En esa explicación, deltanet permitiría complejidad lineal y una memoria de tamaño fijo. Con ello, la transcripción atribuye al modelo una ventana de contexto de 262.144 tokens. Los interlocutores señalan que ese tamaño podría abarcar documentación, código fuente y proyectos heredados dentro de un mismo prompt, sin caer en latencias extremas.

El video reconoce un riesgo típico de contextos largos, como el “lost in the middle problem”, y plantea que Qwen lo mitiga con una estrategia de entrenamiento llamada “best fit packing” (BFP). Según la transcripción, BFP organiza datos de entrenamiento para respetar límites entre documentos y minimizar truncamientos, lo que sería especialmente importante en código, donde importan alcance y estructura de archivos.

Entrenamiento “agent first”: 800.000 tareas verificables y un bucle con contenedores

La parte más distintiva, según la transcripción, es el salto de entrenamiento “read-only” a entrenamiento “agent first”. En años previos, dicen, se enseñó a modelos a predecir el siguiente token a partir de código, algo que comparan con aprender carpintería leyendo libros. En cambio, el nuevo enfoque busca que el modelo escriba, ejecute, falle y corrija durante el propio entrenamiento.

El video atribuye a Alibaba un pipeline agentivo orquestado por un sistema llamado “megaplow”. En ese marco, afirma que se generaron 800.000 tareas de programación verificables, basadas en correcciones reales de bugs extraídas de pull requests de GitHub. La idea sería construir un circuito cerrado donde el modelo no solo propone parches, sino que recibe feedback de ejecución real.

El relato detalla el bucle: se entrega un objetivo, por ejemplo corregir un memory leak en una función de C++. El modelo propone un cambio, y megaplow levanta un contenedor, compila y ejecuta el código. Si falla una prueba unitaria o se produce un crash, el modelo recibe el log de error y vuelve a intentar, hasta pasar. Esa interacción, con error, corrección y éxito, se incorpora como datos de entrenamiento.

Los presentadores lo interpretan como una forma de “reinforcement learning from compiler feedback”, porque el modelo aprende causalidad entre decisiones y resultados. Además, señalan que no se limitaron a archivos sueltos. La transcripción menciona que, a mitad del entrenamiento, se añadieron 600.000 millones de tokens de datos a nivel repositorio para capturar dependencias entre archivos y efectos colaterales de cambios en distintas carpetas.

Soporte para 370 lenguajes y un giro en tool calling: de JSON a XML

En cuanto a versatilidad, el video afirma que el modelo soporta 370 lenguajes de programación, frente a 92 en una versión previa, según el propio diálogo. Los interlocutores sostienen que esto no sería solo una métrica cosmética, porque incluiría lenguajes heredados, dialectos de scripting y formatos de configuración, con utilidad práctica en entornos corporativos.

Otro detalle que resaltan es la forma de “tool calling”. La transcripción dice que Qwen “abandonó JSON” para agentes, debido a errores comunes de escape de comillas y bucles de “invalid JSON”. En su lugar, plantea un formato estilo XML llamado “Qwen 3 coder”, diseñado para pasar strings largos y bloques de código con menos fricción.

En el video, este cambio se presenta como una optimización del “communication layer” para la interacción máquina a máquina, no solo para usuarios humanos. Para flujos de agentes que combinan herramientas, compilación, pruebas y edición de archivos, un protocolo más robusto puede reducir fallas operativas y tiempos perdidos en validación.

La transcripción también menciona especialización mediante “expert models” que luego se destilan al modelo principal. En particular, alude a un experto en desarrollo web y otro en UX de uso de herramientas, con el objetivo de evitar tropiezos en tareas de layout, cadenas de build y cambios de plantillas o esquemas.

Expertos, VLM y destilación: cuando la IA “mira” el resultado

El video describe que el “web development expert” no se entrenó solo con texto. Según la transcripción, incorporaron un modelo visión-lenguaje (VLM) en el loop. Cuando el experto construía una página web, el sistema la renderizaba en un Chromium sin interfaz y el VLM evaluaba la captura de pantalla para verificar calidad visual, como centrado, alineación o coherencia del diseño.

Los interlocutores subrayan una limitación conocida: HTML válido puede verse mal. En esa lógica, el experto habría aprendido a producir resultados “que se ven bien”, no solo correctos sintácticamente. Además, mencionan un experto de UX enfocado en scaffolds como “Klein” u “Open Code”, entrenado con plantillas de chat diversas para que el agente no se confunda al alternar herramientas o formatos.

Luego, el video sostiene que las lecciones de esos expertos se “destilaron” hacia el modelo principal 80B/3B. Lo explican como un maestro que transfiere trazas de razonamiento, guías paso a paso, a un aprendiz más pequeño y rápido. Así, el modelo desplegable imitaría la estrategia sin depender de especialistas enormes en tiempo de ejecución.

En conjunto, la transcripción presenta esta etapa como una manera de elevar capacidad práctica sin perder eficiencia. El punto vuelve a ser el mismo: agentes que iteran rápido, verifican resultados, y resuelven tareas concretas en entornos reales de desarrollo.

Benchmarks citados: SWE-bench Verified y SetCodeBench para seguridad

En resultados, la transcripción afirma que los benchmarks “dicen que sí” a la mejora. Cita “SWE-bench Verified” como referencia para medir capacidad de corregir issues reales de GitHub. En ese marco, atribuye a Qwen 3 coder next un 70,6% y lo compara con “DeepSeek V3.2” con 70,2% y “GLM 4.7” con 74,2%.

Más allá del porcentaje, los interlocutores enfatizan la “efficiency delta”: el rendimiento se obtendría con cerca de 3.000 millones de parámetros activos. La lectura es que el modelo “pega por encima de su peso” al competir con alternativas que, según el tono del video, suelen requerir más recursos o costos de ejecución.

El número que más destacan es el de seguridad. La transcripción menciona “SetCodeBench”, descrito como una prueba para reparar vulnerabilidades, y atribuye a Qwen un 61,2%. Luego lo compara con “Claude Opus 4.5” en 52,5%, remarcando que la ventaja se habría logrado sin “security hints”, es decir, sin que el prompt dijera explícitamente que había que corregir un fallo de seguridad.

El video interpreta ese comportamiento como un “instinto” de seguridad derivado del entrenamiento agentivo y sus tareas verificables. También señala que el modelo superó a otros en “multilingual security” en “CWE Evil”, encontrando bugs en Python, Java y C++. En el marco de agentes con acceso de escritura a repositorios, el diálogo insiste en que la seguridad se vuelve no negociable.

Qué significa para desarrolladores y para el mercado: nube versus local

La conclusión de la transcripción vuelve al punto inicial de la “carrera armamentista” de agentes. Mientras los gigantes de la nube profundizan en tamaño e integración, el video presenta a Qwen como evidencia de que puede lograrse rendimiento élite con menos cómputo si se cambia la arquitectura. Desde esa perspectiva, el “barrier to entry” para agentes de programación se habría reducido.

Los interlocutores afirman que, hasta ese momento, un agente de primer nivel implicaba pagar suscripciones mensuales y enviar propiedad intelectual a un proveedor. En contraste, sostienen que ahora se podría descargar Qwen 3 coder next desde Hugging Face, cargarlo en una laptop decente o un servidor local, y obtener un agente “senior engineer level” “básicamente gratis”, según su formulación.

El video, sin embargo, también sugiere una convivencia de enfoques: “cloud brains” para trabajo pesado y “local experts” para iteración rápida dentro del terminal. En la práctica, el criterio que proponen es que la productividad depende de cuántos intentos puede ejecutar un agente en pocos segundos, no solo de la sofisticación de una respuesta única.

La frase que sintetiza el cierre es casi un manifiesto: el futuro no sería “un trillón de parámetros”, sino “unos pocos miles de millones”, un compilador y un loop de retroalimentación ajustado. Para el video, Qwen 3 coder next ilustra un cambio de era donde el tamaño deja de ser el indicador principal, y la verificación continua se vuelve la métrica decisiva.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín