Por Canuto  

Un nuevo paper de NVIDIA propone PersonaPlex, un modelo conversacional de voz “full dúplex” que intenta resolver una limitación clave de los asistentes actuales: el encierro en un solo rol y una sola voz. La investigación combina prompts de texto para controlar el rol con muestras de audio para clonar voz en modo zero-shot, y presenta un benchmark extendido orientado a escenarios reales de atención al cliente.
***

  • El trabajo presenta PersonaPlex, un modelo de conversación por voz full dúplex con prompts híbridos para controlar rol y voz.
  • El sistema usa un segmento de prompt de texto para rol y un segmento de prompt de voz con una muestra de habla para clonación zero-shot.
  • NVIDIA amplía Full-Duplex-Bench con Service-Duplex-Bench y reporta mejoras en adherencia al rol, similitud de voz, latencia y naturalidad.

 


PersonaPlex: por qué NVIDIA cree que faltaba control de rol y de voz en la IA conversacional

Un preprint de NVIDIA, titulado “PersonaPlex: Voice and Role Control for Full Duplex Conversational Speech Models”, plantea que los modelos conversacionales de voz en tiempo real han avanzado en naturalidad y baja latencia, pero siguen atados a una voz y un rol fijos. Esa rigidez, argumentan los autores, limita su uso en aplicaciones estructuradas, como atención al cliente, interacciones con múltiples personajes y asistentes personalizados.

La idea central es que la conversación por voz en modo full dúplex, donde el sistema puede escuchar mientras habla, se parece más al intercambio humano. Aun así, ese formato no basta si la IA no puede adoptar un rol específico de manera consistente. En la práctica, un “asistente genérico” no se comporta igual que un agente bancario, un operador de restaurante o un representante de soporte técnico.

El paper también ubica el problema en un contexto técnico más amplio. Por un lado, los sistemas encadenados de ASR, LLM y TTS pueden ser fuertes en razonamiento y en calidad de voz, pero tienden a perder información paralingüística. Por otro lado, los modelos de voz condicionados han mejorado en clonación y adaptación de locutor, pero ese control no siempre se integra con fluidez en sistemas dúplex de baja latencia.

En ese cruce aparece PersonaPlex. La propuesta busca unir el control de roles típico de los LLM instruccionales con la clonación de voz basada en ejemplos de audio, todo dentro de un marco full dúplex. Los autores lo presentan como un paso para mover la IA de voz desde demos de “asistente universal” hacia herramientas que cumplan tareas con reglas y expectativas claras.

Cómo funciona el “prompt híbrido”: texto para el rol, audio para la voz

PersonaPlex se describe como un modelo dúplex multimodal basado en la arquitectura Moshi. Según el documento, recibe tres flujos de entrada: audio del usuario, texto del agente y audio del agente. Sobre esa base, introduce un componente llamado Hybrid System Prompt para habilitar, en simultáneo, control del rol y control de la voz.

Ese prompt híbrido se compone de dos segmentos concatenados en el tiempo. El primero es un segmento de prompt de texto, que realiza el role conditioning al forzar tokens de texto específicos del escenario en el canal de texto del agente, mientras mantiene el canal de audio del agente en silencio. El segundo es un segmento de prompt de voz, que realiza el voice prompting al suministrar una muestra corta de habla en el canal de audio del agente, mientras rellena el canal de texto del agente.

La implicación práctica es directa: luego de recibir la muestra, las respuestas posteriores del agente se generan en esa misma voz, lo que habilita clonación de voz zero-shot. Para estabilizar el condicionamiento, los autores reportan que reemplazan el canal de audio del usuario con una onda senoidal de 440 Hz durante el prompt, y usan delimitadores de texto y audio para marcar el límite entre el prompt del sistema y el diálogo.

El paper afirma que no observaron diferencias de desempeño según el orden de los segmentos del prompt. En su implementación, ubican el prompt de voz antes del de texto para permitir “prefilling” durante inferencia cuando no se requiere clonación zero-shot, con el objetivo de reducir latencia. En entrenamiento, enmascaran la retropropagación de la pérdida hacia el system prompt y ajustan la función objetivo para lidiar con el desbalance de tokens, con un downweight de 0,02 para tokens de audio no semánticos y de 0,3 para tokens de texto de padding.

Entrenamiento sintético: diálogos generados con LLM y voz construida con TTS

Un componente clave del enfoque es el uso de datos sintéticos a gran escala. El artículo explica que construyen diálogos sintéticos para cubrir un rango amplio de interacciones de conversación entre dos hablantes. Para generar transcripciones, el equipo usa modelos open source, en específico Qwen-3-32B y GPT-OSS-120B.

En el caso de escenarios de servicio, los diálogos se generan de forma jerárquica. Primero se muestrea un dominio, como restaurante o banco. Luego se selecciona un escenario, como reembolsos, solicitudes de información o consultas generales. Esos elementos se “anclan” con una descripción de alto nivel, que luego se expande a un transcript completo de dos hablantes mediante generación con LLM.

El paper indica que, para cada escenario, se genera un contexto de rol para el agente de servicio. También subraya que los escenarios de entrenamiento son distintos de los usados en su evaluación Service-Duplex-Bench, con el objetivo de probar al modelo en contextos no vistos. Además, sintetizan diálogos de preguntas y respuestas de dos turnos, con un rol fijo tipo docente: “You are a wise and friendly teacher. Answer questions or provide advice in a clear and engaging way.”

Para la parte de voz, utilizan 26.296 muestras de voz de un solo hablante provenientes de varios datasets: VoxCeleb, Libriheavy, LibriTTS, CommonAccent y Fisher. Esas muestras se usan para generar audio sintético de diálogos y los prompts de voz del agente. El documento agrega que reservan un set de prueba de 2.630 muestras para mediciones de similitud de locutor. Para producir audio que suene natural en diálogo, reportan el uso de un TTS multihablante que genera voz para ambos interlocutores y que captura mejor timing, interrupciones y “room tone”, eligiendo un modelo llamado Dia.

El nuevo benchmark de servicio y los resultados reportados frente a otros sistemas

Para medir el control de rol en condiciones más realistas, NVIDIA extiende Full-Duplex-Bench, un benchmark que evalúa conversación full dúplex capturando audio generado mientras el audio del usuario se transmite. El trabajo propone una ampliación llamada Service-Duplex-Bench. La motivación es que Full-Duplex-Bench, según el paper, estaba limitado a un único rol de asistente.

Service-Duplex-Bench incorpora 350 preguntas de evaluación de atención al cliente, donde cada pregunta corresponde a un rol de servicio específico. El documento señala que estas 350 se suman a las 400 preguntas ya presentes en Full-Duplex-Bench. Con ello, el objetivo es probar si un modelo no solo responde, sino si mantiene el comportamiento esperado para un puesto y un contexto.

En métricas de naturalidad y clonación de voz, el paper incluye una tabla con DMOS y SSIM. PersonaPlex reporta DMOS de 3,90 ± 0,15 en Full-Duplex-Bench y 3,59 ± 0,12 en Service-Duplex-Bench, con SSIM de 0,57 en Full-Duplex-Bench. En la misma tabla aparecen Gemini con DMOS 3,72 ± 0,14 y 3,22 ± 0,14, y SSIM 0,00; Qwen-2.5-Omni con DMOS 3,70 ± 0,13 y 2,37 ± 0,20, y SSIM 0,07; Freeze-Omni con DMOS 3,51 ± 0,18 y 2,38 ± 0,21, y SSIM 0,05; y Moshi con DMOS 3,11 ± 0,15 y 2,83 ± 0,13, y SSIM 0,10.

El trabajo también reporta resultados de Full-Duplex-Bench en una tabla con métricas relacionadas con pausa, backchannel, turn-taking, interrupciones, latencia, y un indicador asociado a GPT-4o. En esa tabla, PersonaPlex aparece con múltiples valores, entre ellos 0,584 y 0,662 en métricas TOR para pausa, 0,025 en frecuencia de backchannel, 0,649 en JSD, 0,070 de latencia en una columna, 1,000 en otra columna TOR, 4,210 en una columna rotulada con GPT-4o, y 0,400 en otra columna de latencia. La tabla también lista valores para Moshi, dGSLM, Gemini y Freeze-Omni, lo que sugiere comparaciones amplias entre enfoques dúplex y alternativas.

Por qué este avance importa para mercados, plataformas y productos basados en IA

Aunque el paper no trata sobre criptomonedas ni mercados financieros, su relevancia para el ecosistema tecnológico es clara. La interacción por voz en tiempo real ya es un canal central en productos de consumo y en herramientas empresariales. Si el control de rol y de identidad vocal mejora, crecen los casos de uso en soporte, ventas, educación y operaciones, donde el “cumplimiento del rol” es un requisito funcional y no un detalle estético.

Desde la perspectiva de producto, el enfoque de prompt híbrido puede leerse como un intento de estandarizar el control de comportamiento y de voz sin reentrenar por completo para cada identidad. En escenarios corporativos, eso podría reducir fricción al desplegar agentes distintos por área, marca o idioma, siempre que se gestionen riesgos de seguridad y de suplantación. El paper, por su naturaleza técnica, se concentra en el desempeño y el diseño del modelo, no en lineamientos regulatorios.

También hay un punto competitivo: el documento posiciona a PersonaPlex como superior a modelos dúplex de referencia y a sistemas híbridos basados en LLM en métricas como adherencia al rol, similitud de hablante, latencia y naturalidad. En una industria donde los usuarios juzgan por la fluidez y la coherencia, mejoras medibles en turn-taking e interrupciones pueden ser la diferencia entre una demo atractiva y una herramienta usable en la vida real.

Por ahora, el texto deja claro que se trata de un preprint bajo revisión para ICASSP 2026, fechado en arXiv como versión v1 del 14 de enero de 2026. La señal para el mercado es que el campo está empujando hacia agentes de voz con identidad controlable, y que la evaluación se está moviendo a escenarios de servicio más cercanos a la operación diaria. Ese cambio, si se consolida, puede acelerar la adopción de interfaces de voz en más industrias.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín