Por Canuto  

Alibaba reta a gigantes tecnológicos de EE. UU. con su modelo de IA abierta Qwen3-Omni. Alibaba presenta Qwen3-Omni, un modelo de IA abierta capaz de integrar texto, imagen, audio y video.

***

  • Qwen3-Omni ofrece tres versiones especializadas para distintos usos empresariales.
  • El modelo supera a GPT-4o y Gemini 2.5 Pro en múltiples pruebas de referencia.
  • Alibaba apuesta por el código abierto con licencia Apache 2.0 para empresas y desarrolladores.

El avance tecnológico en inteligencia artificial sigue acelerándose y ahora llega con fuerza desde China. Alibaba, gigante del comercio electrónico y la computación en la nube, presentó Qwen3-Omni, un modelo de lenguaje abierto que acepta texto, imágenes, audio y video como entradas. Con este lanzamiento, la compañía desafía a los líderes tecnológicos de Estados Unidos, incluidos OpenAI y Google, al ofrecer capacidades multimodales avanzadas bajo licencia Apache 2.0, lo que permite su uso comercial sin costos de licencia.

Qwen3-Omni surge en un contexto donde Nvidia anunció una inversión de USD $100.000 millones en los centros de datos de OpenAI, reforzando la competencia en el sector. Mientras las grandes tecnológicas estadounidenses concentran sus esfuerzos en modelos propietarios, Alibaba apuesta por abrir su tecnología, permitiendo a empresas y desarrolladores descargar, modificar y desplegar su modelo de manera gratuita.

Un modelo “omni” que integra todo

La propuesta de Alibaba se distingue por integrar desde cero texto, imagen, audio y video en un solo sistema, evitando la fragmentación que caracterizó a modelos previos. A diferencia de GPT-4o, que unificó texto, imagen y audio, y de Gemini 2.5 Pro, que también analiza video pero es cerrado, Qwen3-Omni es totalmente abierto. Además, supera en varios indicadores a Gemma 3n, la alternativa de Google más cercana en código abierto.

El modelo puede recibir datos multimodales y responder en texto o audio. Esta capacidad de salida dual lo vuelve ideal para aplicaciones empresariales y de atención al cliente que requieran interacción en tiempo real. Alibaba Cloud ya ofrece Qwen3-Omni en Hugging Face, Github y en su propia API con una versión rápida denominada “Flash”.

Tres versiones para distintas necesidades

Alibaba ha lanzado tres variantes de Qwen3-Omni para cubrir distintos escenarios de uso. La versión “Instruct” combina los componentes Thinker y Talker, ofreciendo entradas de audio, video y texto, y salidas en texto y voz. La versión “Thinking” se enfoca en tareas de razonamiento y procesamiento de cadenas largas, aceptando las mismas entradas pero limitando su salida al texto. Finalmente, la versión “Captioner” está optimizada para subtitular audio con precisión y baja tasa de alucinación.

Esta segmentación permite a los desarrolladores elegir entre interacción multimodal amplia, razonamiento profundo o comprensión auditiva especializada según sus objetivos. El modelo soporta 119 idiomas en texto, 19 para entrada de voz y 10 para salida de voz, incluyendo dialectos como el cantonés.

Diseño técnico y rendimiento

Qwen3-Omni adopta una arquitectura Thinker–Talker. El componente Thinker maneja razonamiento y comprensión multimodal, mientras Talker genera voz natural. Esto se apoya en un diseño Mixture-of-Experts (MoE) que mejora la concurrencia y la velocidad de inferencia. Talker se basa directamente en características de audio y video, logrando una prosodia y timbre más naturales en traducción y diálogo.

El modelo registra latencias teóricas de 0,234 segundos para audio y 0,547 segundos para video, manteniéndose por debajo del factor tiempo real incluso con múltiples solicitudes. Su encoder de audio, Audio Transformer (AuT), fue entrenado en 20 millones de horas de datos supervisados, con 80 % en chino e inglés y el resto en otros idiomas y tareas de comprensión auditiva.

Precios y accesibilidad

Alibaba estableció un sistema de cobro por tokens en su API, con costos variables según tipo de entrada y salida. Por ejemplo, el texto de entrada cuesta USD $0,00025 por 1.000 tokens y la salida de texto más audio USD $0,00876 por 1.000 tokens en la parte de audio, siendo el texto gratuito. Esta estructura busca incentivar la adopción masiva por parte de desarrolladores y empresas.

Al estar bajo la licencia Apache 2.0, Qwen3-Omni permite uso comercial, modificaciones y redistribución sin necesidad de abrir derivados, reduciendo riesgos legales y fomentando la integración en sistemas propietarios. Esta apertura podría impulsar nuevas soluciones de transcripción, traducción, OCR, etiquetado musical y análisis de video.

Impacto empresarial y futuro de Qwen

Para las empresas, Qwen3-Omni representa una oportunidad de incorporar IA multimodal avanzada sin costos de licencia ni restricciones contractuales. Pueden adaptar el modelo a sectores específicos o regulaciones locales y beneficiarse de las contribuciones de la comunidad. Este enfoque contrasta con las barreras de los modelos cerrados, que suelen exigir pagos y limitar la personalización.

Con este lanzamiento, Alibaba refuerza su estrategia para competir globalmente en IA, mostrando que la innovación no es exclusiva de Silicon Valley. Qwen3-Omni podría marcar un antes y un después en la adopción de modelos multimodales abiertos, ofreciendo a desarrolladores y empresas herramientas potentes para nuevas experiencias interactivas y multilingües.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.*


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín