Por Canuto  

Alibaba presentó Wan-Streamer v0.1, un modelo de IA interactiva que unifica texto, audio y video dentro de una sola arquitectura para sostener conversaciones audiovisuales en tiempo real con latencia subsegundo.
***

  • El sistema integra entrada y salida de texto, audio y video dentro de un solo Transformer con atención block-causal.
  • Según sus autores, logra cerca de 200 ms de latencia del modelo y unos 550 ms totales con red bidireccional de 350 ms.
  • La propuesta busca superar los límites de los sistemas modulares que separan ASR, lenguaje, TTS, avatar y generación de video.


Alibaba dio a conocer un nuevo avance en inteligencia artificial multimodal con Wan-Streamer v0.1, un sistema diseñado para mantener interacción audiovisual en tiempo real dentro de una sola arquitectura. La propuesta apunta a un objetivo ambicioso: que una IA no solo vea y escuche, sino que también responda hablando y mostrando comportamiento visual sincronizado, con una latencia lo bastante baja como para sostener una conversación natural.

El desarrollo fue presentado en el trabajo Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models, firmado por Wan Team, Alibaba Group. Allí, los autores describen un modelo nativo de streaming y de extremo a extremo, pensado desde cero para interacción full-duplex de baja latencia en texto, audio y video.

La idea central es relevante para cualquier lector que siga la evolución de la IA generativa. Hoy muchos asistentes pueden entender imágenes, responder por voz o generar clips, pero suelen hacerlo mediante cadenas de módulos separados, cada uno con sus tiempos de espera, errores y problemas de sincronización.

Wan-Streamer intenta romper con ese enfoque. En vez de depender de piezas externas para reconocimiento de voz, síntesis de voz, modelado del lenguaje, animación facial o generación de video, el sistema reúne percepción, razonamiento, planeación de respuesta y generación dentro de un solo modelo.

El resultado, según sus creadores, es una plataforma capaz de sostener comunicación audiovisual de menos de un segundo. Ese detalle es importante porque acerca esta clase de agentes a casos de uso como asistentes encarnados, humanos digitales, entretenimiento interactivo, transmisiones en vivo y futuros entornos de control en tiempo real.

Qué propone Wan-Streamer y por qué busca diferenciarse

El trabajo parte de una observación sencilla: la interacción humana con el mundo no ocurre por turnos rígidos. Las personas miran, escuchan, hablan, reaccionan, hacen pausas e interrumpen al mismo tiempo, y ese solapamiento ocurre a escala de audio y video.

Según los autores, los sistemas actuales suelen ensamblar avances parciales de IA multimodal en estructuras asimétricas. Algunos perciben audio y video pero solo responden en texto o voz, mientras otros generan comportamiento audiovisual pero siguen dependiendo de módulos externos para lenguaje, ASR, TTS o renderizado.

Ese diseño por capas tiene costos claros. Introduce tiempos de espera entre módulos, acumula errores de reconocimiento y sincronización, y vuelve más difícil aprender dentro del mismo sistema elementos como el ritmo de respuesta, la gestión de turnos, la preservación de identidad y la consistencia en sesiones largas.

Wan-Streamer se plantea como una alternativa unificada. El modelo representa lenguaje, audio y video como entradas y salidas dentro de una secuencia causal intercalada, procesada por un solo Transformer con atención block-causal para hacer posible el streaming incremental.

En términos prácticos, eso significa que cada nueva unidad observada puede usarse de inmediato y cada nueva unidad generada se emite y pasa a formar parte del historial de interacción. Para sus diseñadores, la transmisión continua no es una optimización de despliegue, sino una restricción central del modelado.

El artículo subraya otro punto clave para entender la propuesta. Cuando el usuario habla, el agente debería seguir mostrando señales visibles de escucha, y cuando el agente responde, también debería seguir percibiendo audio y video del usuario para detectar interrupciones o ajustar su conducta.

Cómo funciona la arquitectura unificada

Wan-Streamer modela la interacción como un flujo causal continuo. En cada unidad de streaming, el sistema toma las observaciones del usuario en texto, audio y video, y predice la respuesta del agente usando el historial completo disponible de ambos lados de la conversación.

El lenguaje se representa como tokens discretos y se optimiza con predicción del siguiente token. En cambio, las salidas de audio y video se representan en espacios latentes continuos y se generan de manera conjunta con conditional flow matching.

Para sostener ese diseño, los autores afirman haber rediseñado toda la pila con foco en causalidad. Eso incluye VAE de audio y video estrictamente causales para codificación latente en streaming, codificadores audiovisuales causales, decodificadores causales y un Transformer temporalmente causal coordinado con atención block-causal.

El sistema admite unidades de streaming tan cortas como 160 ms a 25 FPS. Esa cifra ayuda a dimensionar el objetivo técnico, porque implica que percepción, actualización de estado y generación deben alinearse en ventanas extremadamente breves.

Otro detalle importante es cómo se acoplan audio y video antes del decodificado final. Los autores sostienen que el habla, el movimiento, la apariencia y la evolución de la escena se optimizan como una respuesta acoplada, lo que permite sincronizar prosodia, labios y dinámica facial sin depender de correcciones posteriores.

Una vez que el modelo estima los latentes limpios de audio y video, estos se agregan al historial como contexto limpio para las siguientes unidades de streaming. Luego, los decodificadores causales convierten esos latentes en salida audiovisual externa para el usuario.

Entrenamiento en tres etapas y mezcla de datos multimodales

Wan-Streamer se entrenó con una mezcla amplia de datos de comprensión, generación e interacción de extremo a extremo. En la parte de comprensión, se incluyeron tareas como entendimiento de imagen, audio y video, diálogo de texto, ASR, TTS y diálogo basado en audio.

Para generación, el modelo recibió datos de generación de imagen, audio, video y tareas conjuntas de audio y video. La meta fue alinear percepción, razonamiento lingüístico y generación latente dentro de la misma secuencia, en lugar de optimizar cada capacidad como un módulo aislado.

La segunda fase fue de entrenamiento end-to-end sobre datos de interacción dúplex. Allí, entradas de usuario y salidas del agente en texto, audio y video se intercalaron sobre la misma línea temporal causal que luego se usa en inferencia.

Ese punto es clave porque, de acuerdo con el paper, permite que el sistema aprenda temporización de respuestas, escucha activa, manejo de interrupciones y consistencia en contexto largo bajo el mismo formato con el que será desplegado. En otras palabras, no aprende solo a generar contenido, sino también a comportarse conversacionalmente.

La tercera etapa se enfocó en reducir latencia. Un modelo docente más fuerte, con classifier-free guidance y más pasos de solver para flow matching, fue destilado en un estudiante más eficiente pensado para despliegue.

Los autores también aplicaron rolling distillation para reducir la degradación en horizontes largos. El estudiante se hace avanzar sobre unidades consecutivas de streaming y se entrena sobre su propio historial generado, con una estrategia de self-forcing y distribution matching para acercar su trayectoria a la del docente.

El esquema thinker-performer y las cifras de latencia

Aunque Wan-Streamer se entrena como un solo modelo de extremo a extremo, en inferencia se despliega como una tubería separada entre thinker y performer. El objetivo es superponer tareas y aprovechar mejor el hardware sin romper el estado causal unificado del sistema.

El thinker aloja los codificadores causales de audio y video, la ruta corta del Transformer para predicción lingüística y actualización de estado, la construcción de KV-cache y los decodificadores causales. El performer, por su parte, ejecuta solo la ruta de generación latente.

En cada paso de streaming, el thinker consume las observaciones audiovisuales actuales del usuario, las codifica y actualiza el estado. Al mismo tiempo, recibe del performer los latentes limpios generados en el paso previo y los decodifica para emitir la respuesta inmediata.

Mientras eso ocurre, el performer recibe la nueva porción de KV-cache y ejecuta el solver de flow matching para producir la siguiente unidad de latentes audiovisuales. Ese calendario permite solapar percepción del cuadro actual, decodificación de la respuesta previa, comunicación entre GPUs y generación del siguiente cuadro.

Según el trabajo, la condición de tiempo real se cumple mientras el tiempo del performer y la pequeña sobrecarga de transferencia de KV-cache y latentes entren dentro de una unidad de 160 ms. Esa distinción es diferente a la latencia total percibida por el usuario.

En sus pruebas, los autores reportan cerca de 200 ms de latencia del lado del modelo, medida desde que una unidad de usuario de 160 ms llega al thinker hasta que la unidad audiovisual correspondiente queda decodificada para emisión a 25 FPS. Al sumar una latencia de red bidireccional de 350 ms, el tiempo total de interacción llega a unos 550 ms.

Comparación con otros sistemas de voz e IA multimodal

El documento incluye comparaciones con varias plataformas de voz en tiempo real y sistemas omni-modales. Sin embargo, sus autores advierten que muchas métricas públicas no son directamente comparables porque unas miden respuesta interna del modelo, otras first-packet, first-token, endpointing o tiempo de API.

Dentro de esa tabla, Doubao Realtime Voice aparece con alrededor de 1 segundo de latencia total y cerca de 700 ms de latencia de modelo, aunque se trata de un producto de voz sin salida visual del agente. Seeduplex no reporta una latencia absoluta alineada, pero sí mejoras relativas frente a sistemas previos de Doubao.

En el caso de GPT-4o y Realtime API, los autores recogen cifras públicas que varían según protocolo. Mencionan 232 ms y 320 ms de respuesta oficial de audio, cerca de 500 ms de time-to-first-byte en API y un objetivo de alrededor de 800 ms para voz a voz, pero remarcan que esas cifras mezclan fronteras de medición distintas.

También aparecen Hume EVI 3, Gemini Live API, Sesame, Moshi, Qwen3 y Qwen3.5-Omni, además de MiniCPM-o 4.5. En varios casos, el paper resalta que esos sistemas no cierran el ciclo con salida visual sincronizada del agente, o bien no publican una latencia absoluta comparable para toda la interacción.

En una segunda tabla, el trabajo revisa motores visuales, avatares y agentes digitales como Body of Her, MIDAS, U-Mind, X-Streamer, LPM 1.0, MAViD, M.I.O, VASA-1, TalkingMachines, StreamAvatar, LiveTalk, Hallo-Live y OmniForcing. Allí, la comparación se organiza más por FPS, retraso del primer cuadro o latencia audio-visual que por respuesta conversacional completa.

La tesis de los autores es que una cifra rápida de renderizado no equivale a baja latencia de conversación. Un avatar puede moverse a 20 o 40 FPS, pero si depende de módulos externos para entender, decidir y hablar, la experiencia final seguirá cargando con la demora acumulada de toda esa cadena.

Naturalidad, escucha visible e interrupciones

Más allá de la velocidad, el paper presenta a Wan-Streamer como un avance en naturalidad interactiva. En estado de espera, el agente no queda congelado como un retrato estático, sino que mantiene identidad, mirada, postura, respiración y movimientos sutiles a lo largo del historial de streaming.

Durante la escucha, el sistema puede producir retroalimentación no verbal como cambios de mirada, asentimientos, microexpresiones y variaciones de postura vinculadas a lo que el usuario dice y muestra. Esa capacidad es importante porque acerca la interacción a patrones humanos más reconocibles.

Los autores sostienen que la sincronización entre labios, dinámica facial y prosodia surge de forma nativa. La razón es que audio y video se predicen desde el mismo contexto causal antes del decodificado, en lugar de intentar corregir desfases después.

El trabajo también afirma que la conducta full-duplex no se implementa solo con reglas rígidas de turnos. Como el modelo fue expuesto a datos intercalados de entradas y salidas en varias modalidades, aprende cuándo los humanos continúan, pausan, interrumpen, ceden o retoman una intervención.

En inferencia, el modelo sigue consumiendo observaciones audiovisuales del usuario incluso mientras está generando su propia respuesta. Eso le permitiría detener, acortar o redirigir su discurso cuando el usuario interrumpe de manera natural.

Ese mismo contexto unificado habilita además habla proactiva. Si aparecen eventos visuales, objetos, expresiones o acciones relevantes en el flujo de entrada, el sistema puede iniciar un comentario o una pregunta sin esperar una petición hablada explícita.

Alcances, límites y por qué este avance importa

Wan-Streamer v0.1 se presenta como una prueba de concepto funcional de una arquitectura de interacción audiovisual realmente integrada. Para un sector que avanza hacia agentes digitales, robótica y asistentes de presencia continua, esa dirección técnica puede resultar tan importante como los saltos vistos en generación de imagen o video.

El propio trabajo reconoce una limitación concreta. Los resultados actuales fueron validados con una resolución preliminar de 192p, lo que deja abierta la tarea de escalar el sistema a resoluciones superiores en futuras versiones.

Aun así, el valor del anuncio no depende solo de la nitidez visual. La contribución central está en demostrar que un único modelo puede compartir el mismo flujo causal para texto, voz y video, reduciendo esperas entre módulos y aprendiendo conducta multimodal como una sola tarea.

Para lectores que siguen la IA desde su impacto en mercados y negocios, esto sugiere una posible próxima frontera comercial. Un sistema que escuche, vea, responda y muestre comportamiento corporal en tiempo real podría transformar atención al cliente, entretenimiento, educación, ventas y telepresencia digital.

También deja una lectura competitiva clara. La carrera por la IA multimodal ya no gira solo en torno a quién responde mejor una pregunta o genera un clip más realista, sino a quién logra construir agentes persistentes, expresivos y de baja latencia que sostengan interacción continua.

Si el enfoque de Alibaba demuestra escalar en calidad y resolución sin perder velocidad, Wan-Streamer podría convertirse en una referencia importante para la siguiente generación de asistentes audiovisuales. Por ahora, el paper lo posiciona como una de las apuestas más ambiciosas hacia una IA que vea, escuche y responda como un interlocutor presente.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín