El modelo Qwen3-Omni de Alibaba supera a GPT-4o y Gemini en pruebas clave de IA

𝕏

Miércoles, 24 de Septiembre, 2025

Por Canuto

Alibaba reta a gigantes tecnológicos de EE. UU. con su modelo de IA abierta Qwen3-Omni. Alibaba presenta Qwen3-Omni, un modelo de IA abierta capaz de integrar texto, imagen, audio y video.

***

Qwen3-Omni ofrece tres versiones especializadas para distintos usos empresariales.
El modelo supera a GPT-4o y Gemini 2.5 Pro en múltiples pruebas de referencia.
Alibaba apuesta por el código abierto con licencia Apache 2.0 para empresas y desarrolladores.

El avance tecnológico en inteligencia artificial sigue acelerándose y ahora llega con fuerza desde China. Alibaba, gigante del comercio electrónico y la computación en la nube, presentó Qwen3-Omni, un modelo de lenguaje abierto que acepta texto, imágenes, audio y video como entradas. Con este lanzamiento, la compañía desafía a los líderes tecnológicos de Estados Unidos, incluidos OpenAI y Google, al ofrecer capacidades multimodales avanzadas bajo licencia Apache 2.0, lo que permite su uso comercial sin costos de licencia.

🚨🤖 Alibaba lanza Qwen3-Omni y supera a GPT-4o y Gemini Multimodal: texto, imagen, audio y video

Llibre bajo licencia Apache 2.0

Disponible en HuggingFace, GitHub y API

3 versiones y cobro por token pic.twitter.com/O8fubjy0eD

— Diario฿itcoin (@DiarioBitcoin) September 24, 2025

Qwen3-Omni surge en un contexto donde Nvidia anunció una inversión de USD $100.000 millones en los centros de datos de OpenAI, reforzando la competencia en el sector. Mientras las grandes tecnológicas estadounidenses concentran sus esfuerzos en modelos propietarios, Alibaba apuesta por abrir su tecnología, permitiendo a empresas y desarrolladores descargar, modificar y desplegar su modelo de manera gratuita.

Un modelo “omni” que integra todo

La propuesta de Alibaba se distingue por integrar desde cero texto, imagen, audio y video en un solo sistema, evitando la fragmentación que caracterizó a modelos previos. A diferencia de GPT-4o, que unificó texto, imagen y audio, y de Gemini 2.5 Pro, que también analiza video pero es cerrado, Qwen3-Omni es totalmente abierto. Además, supera en varios indicadores a Gemma 3n, la alternativa de Google más cercana en código abierto.

El modelo puede recibir datos multimodales y responder en texto o audio. Esta capacidad de salida dual lo vuelve ideal para aplicaciones empresariales y de atención al cliente que requieran interacción en tiempo real. Alibaba Cloud ya ofrece Qwen3-Omni en Hugging Face, Github y en su propia API con una versión rápida denominada “Flash”.

Tres versiones para distintas necesidades

Alibaba ha lanzado tres variantes de Qwen3-Omni para cubrir distintos escenarios de uso. La versión “Instruct” combina los componentes Thinker y Talker, ofreciendo entradas de audio, video y texto, y salidas en texto y voz. La versión “Thinking” se enfoca en tareas de razonamiento y procesamiento de cadenas largas, aceptando las mismas entradas pero limitando su salida al texto. Finalmente, la versión “Captioner” está optimizada para subtitular audio con precisión y baja tasa de alucinación.

Esta segmentación permite a los desarrolladores elegir entre interacción multimodal amplia, razonamiento profundo o comprensión auditiva especializada según sus objetivos. El modelo soporta 119 idiomas en texto, 19 para entrada de voz y 10 para salida de voz, incluyendo dialectos como el cantonés.

Diseño técnico y rendimiento

Qwen3-Omni adopta una arquitectura Thinker–Talker. El componente Thinker maneja razonamiento y comprensión multimodal, mientras Talker genera voz natural. Esto se apoya en un diseño Mixture-of-Experts (MoE) que mejora la concurrencia y la velocidad de inferencia. Talker se basa directamente en características de audio y video, logrando una prosodia y timbre más naturales en traducción y diálogo.

El modelo registra latencias teóricas de 0,234 segundos para audio y 0,547 segundos para video, manteniéndose por debajo del factor tiempo real incluso con múltiples solicitudes. Su encoder de audio, Audio Transformer (AuT), fue entrenado en 20 millones de horas de datos supervisados, con 80 % en chino e inglés y el resto en otros idiomas y tareas de comprensión auditiva.

Precios y accesibilidad

Alibaba estableció un sistema de cobro por tokens en su API, con costos variables según tipo de entrada y salida. Por ejemplo, el texto de entrada cuesta USD $0,00025 por 1.000 tokens y la salida de texto más audio USD $0,00876 por 1.000 tokens en la parte de audio, siendo el texto gratuito. Esta estructura busca incentivar la adopción masiva por parte de desarrolladores y empresas.

Al estar bajo la licencia Apache 2.0, Qwen3-Omni permite uso comercial, modificaciones y redistribución sin necesidad de abrir derivados, reduciendo riesgos legales y fomentando la integración en sistemas propietarios. Esta apertura podría impulsar nuevas soluciones de transcripción, traducción, OCR, etiquetado musical y análisis de video.

Impacto empresarial y futuro de Qwen

Para las empresas, Qwen3-Omni representa una oportunidad de incorporar IA multimodal avanzada sin costos de licencia ni restricciones contractuales. Pueden adaptar el modelo a sectores específicos o regulaciones locales y beneficiarse de las contribuciones de la comunidad. Este enfoque contrasta con las barreras de los modelos cerrados, que suelen exigir pagos y limitar la personalización.

Con este lanzamiento, Alibaba refuerza su estrategia para competir globalmente en IA, mostrando que la innovación no es exclusiva de Silicon Valley. Qwen3-Omni podría marcar un antes y un después en la adopción de modelos multimodales abiertos, ofreciendo a desarrolladores y empresas herramientas potentes para nuevas experiencias interactivas y multilingües.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.*

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,0%	$48,11 mmd
BTC	Bitcoin	1,41%	$22,83 mmd
ETH	Ethereum	1,64%	$9,25 mmd
USDC	USDC	-0,01%	$5,3 mmd
SOL	Solana	1,01%	$2,32 mmd
XRP	XRP	1,45%	$1,19 mmd
DOGE	Dogecoin	2,23%	$0,941 765 mmd
BNB	BNB	1,09%	$0,902 173 mmd
NIGHT	Midnight	13,49%	$0,739 153 mmd
USD1	World Liberty Financial USD	-0,0%	$0,650 985 mmd

SIREN	siren	115,28%	$1,7
CHZ	Chiliz	15,99%	$0,040 558
NIGHT	Midnight	13,49%	$0,051 564
CC	Canton	9,89%	$0,154 996
FET	Artificial Superintelligence Alliance	7,54%	$0,247 26
WLD	Worldcoin	4,84%	$0,274 408
PI	Pi	4,66%	$0,180 858
HYPE	Hyperliquid	3,97%	$39,78
BCH	Bitcoin Cash	3,54%	$482,24
JUP	Jupiter	3,45%	$0,146 026

KITE	Kite	-8,32%	$0,170 973
APT	Aptos	-3,48%	$0,940 721
DEXE	DeXe	-3,03%	$7,1
FIL	Filecoin	-1,29%	$0,823 045
TAO	Bittensor	-1,28%	$319,55
STABLE	Stable	-0,66%	$0,026 15
NFT	AINFT	-0,65%	$0,0
XAUt	Tether Gold	-0,63%	$4.488,48
XTZ	Tezos	-0,57%	$0,349 399
SEI	Sei	-0,52%	$0,054 622

El modelo Qwen3-Omni de Alibaba supera a GPT-4o y Gemini en pruebas clave de IA

Un modelo “omni” que integra todo

Tres versiones para distintas necesidades

Diseño técnico y rendimiento

Precios y accesibilidad

Impacto empresarial y futuro de Qwen

Suscríbete a nuestro boletín

Artículos Relacionados

Kraken respalda apuesta cripto mientras la IA amenaza al negocio SaaS

Los últimos cofundadores de xAI también dejan la empresa de Elon Musk

Tao cae 4,91% en 24 horas ante corrección técnica

FET sube 5,87% en 24 horas: ¿rebote técnico o trampa alcista?