Wan Streamer propone una arquitectura poco común en la carrera por la IA multimodal: un único Transformer capaz de percibir y generar lenguaje, audio y video en tiempo real. Sus autores aseguran que el sistema alcanza latencias lo bastante bajas como para sostener conversaciones audiovisuales full-duplex en menos de un segundo.
***
- Wan Streamer integra texto, audio y video de entrada y salida dentro de un solo Transformer end-to-end.
- El sistema reporta cerca de 200 ms de latencia del modelo y unos 550 ms de interacción total con red bidireccional.
- Sus autores lo presentan como una alternativa a los pipelines modulares que suelen elevar la demora y romper la sincronización.
🚀 Nuevo avance en IA audiovisual: Wan Streamer logra interacción full-duplex con latencia de solo 550 ms.
Un único Transformer integra lenguaje, audio y video en tiempo real.
Esta tecnología podría transformar la forma en que interactuamos con asistentes virtuales.
El… pic.twitter.com/FTgnaHVJSc
— Diario฿itcoin (@DiarioBitcoin) June 27, 2026
La competencia por construir asistentes de inteligencia artificial más naturales ya no se limita a responder texto o voz. El nuevo frente está en lograr sistemas que puedan ver, escuchar, hablar y mostrar un rostro sincronizado en tiempo real, sin que la interacción se sienta fragmentada.
En ese contexto aparece Wan Streamer, un modelo presentado como una arquitectura nativa de streaming y diseñada desde cero para interacción audiovisual full-duplex. Su meta es ambiciosa: reducir la fricción entre percepción y respuesta hasta acercarse al ritmo de una conversación humana.
El trabajo, titulado Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models, fue desarrollado por Lianghua Huang, Zhi-Fan Wu, Wei Wang, Yupeng Shi, Mengyang Feng, Junjie He, Chen-Wei Xie, Yu Liu, Jingren Zhou, Ang Wang, Bang Zhang, Baole Ai, Chen Liang, Cheng Yu, Chongyang Zhong, Jinwei Qi, Kai Zhu, Pandeng Li, Peng Zhang, Wenyuan Zhang, Xinhua Cheng, Yitong Huang, Yun Zheng y Zoubin Bi.
Según sus autores, el sistema modela lenguaje, audio y video como entradas y salidas dentro de un solo Transformer. Esa decisión busca eliminar las fronteras entre módulos separados, que suelen añadir demoras y errores de sincronización en sistemas tradicionales.
La propuesta llega en un momento clave para la industria de IA, donde muchos productos ya pueden mantener una conversación por voz. Sin embargo, siguen siendo escasos los sistemas que además generan una respuesta visual coherente, sincronizada y lo bastante rápida para sostener una interacción natural.
Qué propone Wan Streamer y por qué importa
La idea central de Wan Streamer es tratar la interacción como un flujo causal continuo. En vez de procesar primero una modalidad y luego pasarla a otra etapa, el modelo entrelaza tokens de texto, audio y video de entrada con tokens de salida dentro de una sola secuencia.
Ese flujo es coordinado mediante block-causal attention, una técnica que permite generación incremental en streaming. El objetivo es que cada nueva observación del usuario pueda incorporarse de inmediato y que cada nueva respuesta del agente pase a formar parte del historial activo.
Los autores sostienen que todo el stack fue rediseñado alrededor de la capacidad de operar en streaming. Eso incluye codificadores causales, decodificadores causales, atención block-causal y un esquema de programación de tokens multimodales orientado a baja latencia.
Gracias a ese diseño, el sistema puede trabajar con unidades de streaming tan cortas como 160 ms a 25 fps. En la práctica, esa granularidad apunta a evitar la sensación de turnos rígidos y a permitir que percepción y respuesta se solapen.
El trabajo reporta una latencia del lado del modelo de aproximadamente 200 ms. Al sumar 350 ms de latencia de red bidireccional, la interacción total se ubica cerca de 550 ms, lo que según los autores permite comunicación audiovisual full-duplex por debajo de un segundo.
La crítica a los sistemas actuales de interacción en tiempo real
La investigación divide el panorama actual en dos grandes grupos. Por un lado, están los sistemas centrados en voz, que responden rápido, pero no ofrecen un agente visible con rostro, mirada o movimiento sincronizado.
Por otro lado, están las soluciones audiovisuales que sí muestran un avatar. El problema, según el documento, es que muchas dependen de ensamblar módulos externos de reconocimiento de voz, modelo de lenguaje, síntesis de voz, animación y renderizado.
Cada frontera entre esos componentes introduce tiempo de espera adicional. Además, en ese salto entre módulos también se acumulan errores de reconocimiento, de coordinación temporal y de consistencia en la identidad visual o vocal del agente.
Los autores afirman que Wan Streamer es el único sistema que entrega una respuesta sincronizada de audio y video desde un solo Transformer end-to-end y que además lo hace claramente por debajo de un segundo. Esa comparación se presenta frente a sistemas como Doubao Voice, GPT-4o Realtime, StreamAvatar y LPM 1.0.
En la tabla de capacidades incluida en la presentación, Wan Streamer aparece como el único que reúne percepción de video, salida de video, operación full-duplex, arquitectura end-to-end y respuesta subsegundo. En otros casos, el soporte es parcial, inexistente o no ha sido revelado públicamente.
El reto técnico del full-duplex real
Una de las tesis más fuertes del trabajo es que la interacción humana no ocurre por turnos completamente separados. Las personas escuchan, observan, reaccionan, interrumpen, gesticulan y hablan al mismo tiempo, o al menos con superposiciones muy breves.
Replicar ese patrón en una máquina implica más que combinar comprensión multimodal con generación multimodal. También exige que el sistema mantenga percepción activa mientras responde y que su propia respuesta pueda cambiar si detecta una interrupción o una nueva señal del usuario.
De acuerdo con los autores, ese es el punto donde fallan muchos pipelines ensamblados. Si el sistema depende de codificadores offline, decodificadores bidireccionales o diálogo por rondas, luego resulta muy difícil recuperar un comportamiento realmente full-duplex solo mediante optimización de infraestructura.
El texto resume esta idea con una frase técnica importante: la capacidad de streaming es una restricción de modelado, no solo una optimización de serving. En otras palabras, no basta con acelerar módulos viejos si el diseño base nunca fue pensado para interacción continua.
Ese enfoque también busca resolver un problema menos visible, pero crucial: el momento correcto para responder. En conversación natural, el timing importa tanto como el contenido, y eso incluye cuándo escuchar en silencio, cuándo asentir con gestos y cuándo hablar sin romper la fluidez.
Cómo funciona el modelo con un solo Transformer
Wan Streamer se apoya en un contrato de streaming único. Cada componente opera de forma causal, cada unidad observada puede usarse al instante y cada unidad generada se emite y se reincorpora al historial de interacción.
En este marco, lenguaje, audio y video, tanto del lado de entrada como del lado de salida, forman una sola secuencia causal intercalada. Todo ese flujo es procesado por un único Transformer, sin módulos externos de VAD, ASR, TTS, animación o generación de video.
El modelo codifica las observaciones del usuario disponibles en cada unidad de streaming y predice la siguiente respuesta a partir de la historia causal completa. Para el lenguaje usa tokens discretos con entrenamiento de next-token prediction.
En cambio, las respuestas de audio y video viven en espacios latentes continuos. Esas salidas se generan de manera conjunta con conditional flow matching y condicionadas sobre el mismo contexto limpio, de modo que voz, movimiento, apariencia y evolución de escena se acoplen antes de la decodificación final.
Para sostener ese comportamiento, el sistema utiliza VAE de audio y video estrictamente causales para el codificado latente en streaming, junto con codificadores audiovisuales causales, decodificadores causales y un Transformer temporalmente causal. Tras el proceso de denoising, los latentes limpios estimados se agregan de inmediato al historial de contexto.
La arquitectura thinker-performer y el presupuesto de latencia
Aunque Wan Streamer se entrena como un solo modelo end-to-end, su despliegue en tiempo real se divide entre dos GPU. Los autores llaman a este esquema thinker-performer y lo describen como una forma de maximizar el solapamiento de tareas y el uso del hardware.
Después del prefill del sistema, el thinker transmite el KV-cache inicial al performer. Así, ambos lados comparten el mismo estado de historial completo y, según el documento, se conserva exactamente el comportamiento del modelo unificado.
El thinker se encarga de los codificadores causales de audio y video, de un paso corto del Transformer causal para predicción de lenguaje y actualización de estado, de construir el KV-cache y de decodificar los latentes de la unidad previa para emitir audio y video de inmediato.
El performer, por su parte, conserva únicamente la ruta de generación de latentes. Su trabajo es ejecutar el solver de flow matching para producir la siguiente unidad audiovisual a partir del contexto de historial completo compartido.
La ventaja del reparto es que el performer nunca ejecuta decodificadores y el thinker nunca corre el solver costoso. Ese paralelismo permite superponer percepción del cuadro actual, decodificación del anterior, comunicación de KV y latentes, y denoising del siguiente, siempre que el tiempo del performer más la comunicación quepan dentro de una unidad de 160 ms.
El documento distingue además entre throughput y latencia señal a señal. La ruta encode, actualización de estado, generación de latentes y decode constituye la latencia del modelo, que se reporta en torno a 200 ms gracias a captura con CUDA graph, compilación y kernels optimizados.
Demostraciones, límites iniciales y lo que queda por probar
Los autores muestran varias demos generadas por el mismo modelo, aunque con distintas personas, voces y escenas. Hay ejemplos en chino y en inglés, con conversaciones sobre trabajo remoto, cine de acción, cultura pop, cansancio emocional y hábitos de uso del teléfono.
Las voces y los contextos cambian entre clips. Se mencionan, por ejemplo, una voz masculina clara en una llamada cálida en interiores, una voz femenina alegre en una habitación blanca, y otra voz femenina cansada en una escena dentro de un automóvil.
También se ofrece una grabación de una conversación real sobre red, donde el flujo del usuario aparece a la izquierda, el agente de IA responde a la derecha y una corriente de texto se actualiza en la parte inferior. La presentación aclara que el clip fue comprimido para la web.
Al mismo tiempo, el trabajo reconoce una limitación importante de esta versión inicial. Wan Streamer v0.1 corre a una resolución preliminar de 192p, planteada como prueba de concepto para validar el diseño end-to-end.
Según la descripción, la escalada hacia resoluciones mayores se considera factible y queda como trabajo futuro. Eso significa que, aunque la baja latencia es uno de los puntos más llamativos, todavía falta comprobar cómo se comportará la arquitectura cuando aumente la calidad visual y la exigencia computacional.
Por qué este avance puede influir en la siguiente generación de agentes de IA
Si los resultados reportados se sostienen fuera del entorno de demostración, Wan Streamer podría aportar una referencia importante para la siguiente ola de agentes multimodales. La industria busca asistentes que no solo entiendan órdenes, sino que también mantengan presencia visual y coordinación temporal convincente.
Eso tiene implicaciones para atención al cliente, educación, telepresencia, entretenimiento interactivo y herramientas empresariales. En todos esos casos, reducir la latencia y evitar saltos entre módulos puede mejorar la sensación de naturalidad y de continuidad.
Para el público que sigue de cerca la IA desde la óptica de mercados y tecnología, el punto relevante no es solo el avatar. También importa la posibilidad de consolidar tareas que hoy se reparten entre varias capas de software, licencias y cómputo especializado.
Menos piezas en la cadena podría significar menores cuellos de botella y una mejor base para optimizar costos a gran escala. Sin embargo, la propuesta todavía deberá medirse frente a despliegues comerciales, cargas reales de usuarios y exigencias de calidad visual superiores a 192p.
Por ahora, Wan Streamer se presenta como una apuesta técnica seria por la interacción audiovisual full-duplex desde un solo modelo. En un sector que compite por ofrecer IA cada vez más humana y más instantánea, ese enfoque podría marcar una dirección relevante para los próximos años.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Hardware
Google acelera Gemini Nano en Pixel con una técnica que reduce latencia y consumo
IA
Modelo open source de frontera podría alcanzar a la IA cerrada en diciembre de 2026
IA
GPT-5.6 queda por detrás de Mythos en varias métricas, según Chris
China