Google presenta Gemini 3.1 Flash Live para conversaciones de voz más naturales y rápidas

𝕏

Hace 10 minutos

Por Canuto

Google presentó Gemini 3.1 Flash Live, su nuevo modelo de audio para diálogo en tiempo real, con mejoras en velocidad, comprensión tonal y confiabilidad. La compañía busca reforzar desde agentes de voz empresariales hasta experiencias de consumo en Search Live y Gemini Live, mientras añade marca de agua SynthID a todo el audio generado por IA.

***

Gemini 3.1 Flash Live reduce la latencia y mejora la naturalidad de las conversaciones de voz en tiempo real.
Google asegura que el modelo lidera benchmarks de razonamiento y seguimiento de instrucciones en audio complejo.
El sistema ya impulsa Search Live y Gemini Live en más de 200 países y territorios, con soporte multilingüe.

Google anunció Gemini 3.1 Flash Live, un nuevo modelo de audio y voz orientado a interacciones en tiempo real que, según la empresa, ofrece su mayor nivel de calidad hasta ahora en este segmento.

El lanzamiento apunta a mejorar la velocidad de respuesta, la fluidez conversacional y la precisión al interpretar matices del habla, un terreno clave en la carrera actual por los asistentes de inteligencia artificial más naturales.

La novedad fue presentada por Valeria Wu, gerente de producto, y Yifan Ding, ingeniero de software, en nombre del equipo de Gemini. De acuerdo con la publicación oficial de Google, el modelo fue diseñado para diálogo natural y confiable en tiempo real, con disponibilidad tanto para desarrolladores como para empresas y usuarios finales a través de distintos productos del ecosistema de la compañía.

En términos prácticos, Gemini 3.1 Flash Live ya puede ser utilizado por desarrolladores en versión preliminar mediante la Gemini Live API en Google AI Studio. Para empresas, la propuesta llega a través de Gemini Enterprise for Customer Experience. A nivel de consumo, el motor también se integra en Search Live y Gemini Live, dos productos con los que Google quiere reforzar su apuesta por experiencias conversacionales multimodales.

El movimiento resulta relevante porque la voz se está consolidando como una de las interfaces más prometedoras para la IA generativa. A diferencia de los chatbots escritos, los modelos de audio deben responder con baja latencia, sostener el contexto, interpretar tono, interrupciones y vacilaciones, y además ejecutar tareas sin perder coherencia. Ese es justamente el frente en el que Google asegura haber avanzado con esta nueva versión.

Un modelo pensado para agentes de voz y tareas complejas

Google indicó que Gemini 3.1 Flash Live mejora la calidad general del sistema y lo vuelve más confiable para que desarrolladores y empresas construyan agentes centrados en la voz capaces de completar tareas complejas a escala. La meta no es solo responder preguntas sencillas, sino operar en escenarios reales donde el audio incluye ruido, cambios de ritmo, dudas del usuario y peticiones encadenadas.

Como parte de ese argumento técnico, la compañía señaló que el modelo lidera en ComplexFuncBench Audio, una prueba que captura llamadas a funciones de múltiples pasos con distintas restricciones. Allí obtuvo una puntuación de 90,8%, una mejora frente al modelo anterior, según los datos compartidos por la propia empresa en su anuncio.

Google también afirmó que Gemini 3.1 Flash Live encabeza Audio MultiChallenge de Scale AI, con una puntuación de 36,1% cuando se activa la función de “thinking”. Ese benchmark, explicó la empresa, evalúa seguimiento de instrucciones complejas y razonamiento de largo alcance en condiciones que imitan el audio del mundo real, con interrupciones y vacilaciones frecuentes.

Este punto es importante porque uno de los mayores obstáculos para la adopción de asistentes de voz avanzados ha sido su fragilidad fuera de las demostraciones controladas. En entornos reales, una conversación puede cambiar de dirección varias veces, incluir ambigüedades o requerir acciones encadenadas. Google sostiene que 3.1 Flash Live se acerca más a ese tipo de interacción práctica.

La compañía añadió que el modelo permite crear agentes preparados para voz que manejan tareas complejas incluso en ambientes ruidosos. Además, mostró ejemplos orientados a programación por voz e iteración rápida, siempre con la idea de que el usuario pueda conversar con el sistema como si tratara con un interlocutor más competente y menos rígido.

Mejor comprensión tonal y uso empresarial

Otro de los avances señalados por Google es la comprensión tonal. Según la empresa, Gemini 3.1 Flash Live ofrece un diálogo más natural porque reconoce con mayor precisión matices acústicos como el tono y el ritmo, superando en este aspecto a 2.5 Flash Native Audio dentro de Gemini Enterprise for Customer Experience.

En servicios empresariales, esta característica puede tener implicaciones concretas. Un asistente capaz de detectar frustración, duda o confusión tiene más probabilidades de ajustar sus respuestas de manera útil y reducir fricciones en atención al cliente. Google destacó precisamente que el nuevo modelo mejora su capacidad de adaptar dinámicamente la respuesta a expresiones de frustración o confusión de los usuarios.

La empresa mencionó además comentarios positivos de compañías como Verizon, LiveKit y The Home Depot, que ya habrían probado 3.1 Flash Live dentro de sus flujos de trabajo. Según Google, estas firmas subrayaron la mejora en la conversación y la naturalidad del sistema, aunque el anuncio no detalló métricas independientes de desempeño comercial o ahorro operativo.

Para el sector corporativo, la propuesta encaja con una tendencia más amplia en IA aplicada al servicio al cliente. Las empresas buscan asistentes de voz que no solo automaticen respuestas básicas, sino que puedan resolver procesos completos, entender emociones y escalar con confiabilidad. En ese contexto, Google intenta posicionar su modelo como una opción apta para operaciones más exigentes.

Search Live y Gemini Live amplían su alcance global

Más allá del segmento empresarial, Google aseguró que Gemini 3.1 Flash Live mejora la experiencia del público general en Gemini Live y Search Live. Allí, el modelo ofrece respuestas más útiles y naturales tanto para preguntas rápidas del día a día como para conversaciones más extensas y complejas.

La compañía afirmó que Gemini Live ahora responde más rápido que con el modelo anterior y puede seguir el hilo de una conversación durante el doble de tiempo. Ese detalle es relevante para sesiones de lluvia de ideas, resolución de problemas o consultas encadenadas, donde perder el contexto suele deteriorar la utilidad del asistente.

Google también remarcó que 3.1 Flash Live es inherentemente multilingüe, un atributo que respalda la expansión global de Search Live anunciada esta semana. Con este despliegue, las personas en más de 200 países y territorios pueden mantener conversaciones multimodales en tiempo real con Search en su idioma preferido.

La expansión internacional refuerza una dimensión estratégica del mercado de IA: la competencia ya no se limita a lanzar modelos potentes, sino a distribuirlos de forma amplia y con soporte lingüístico robusto. En regiones con diversidad idiomática, la calidad del reconocimiento vocal y la capacidad de sostener contexto en varios idiomas puede convertirse en una ventaja decisiva.

En ese sentido, el anuncio sugiere que Google quiere integrar sus avances de voz en productos de consumo masivo y no solo en entornos de laboratorio o desarrollo. Si la experiencia resulta consistente, Gemini Live y Search Live podrían ganar terreno como puertas de entrada cotidianas a la IA conversacional.

Seguridad, trazabilidad y el reto de la desinformación

Uno de los puntos más sensibles del anuncio es la seguridad del contenido generado. Google informó que todo el audio producido por 3.1 Flash Live incluye una marca de agua con SynthID. La empresa describió este mecanismo como una marca imperceptible integrada directamente en la salida de audio.

Según Google, esta marca de agua permite una detección confiable de contenido generado por IA y busca ayudar a prevenir la desinformación. La medida llega en un momento en que los sistemas de clonación de voz y generación de audio realista despiertan preocupación en medios, política, atención al cliente y verificación de identidad.

El uso de marcas de agua no resuelve por sí solo los riesgos del audio sintético, pero sí apunta a un principio importante: la trazabilidad. A medida que la voz generada por IA se vuelve más creíble, las plataformas necesitarán mecanismos de identificación, auditoría y respuesta ante usos maliciosos. Google enmarca SynthID como parte de ese enfoque de responsabilidad.

La empresa invitó a consultar la model card para conocer más sobre su estrategia de seguridad y responsabilidad. Aunque el anuncio se centra en avances de producto, la mención deja ver que la batalla por la confianza en la IA de voz no dependerá solo de la naturalidad del audio, sino también de la capacidad de demostrar cuándo fue creado por una máquina.

Con Gemini 3.1 Flash Live, Google busca consolidar una plataforma de voz más veloz, más natural y mejor preparada para escenarios reales. El reto ahora será convertir esas promesas técnicas en experiencias consistentes para desarrolladores, empresas y usuarios, en un mercado donde la conversación en tiempo real se perfila como una de las próximas grandes interfaces de la inteligencia artificial.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público

Este artículo fue escrito por un redactor de contenido de IA

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,0%	$74,09 mmd
BTC	Bitcoin	-2,43%	$35,22 mmd
ETH	Ethereum	-4,24%	$17,0 mmd
USDC	USDC	0,02%	$10,07 mmd
SOL	Solana	-4,53%	$3,75 mmd
XRP	XRP	-3,29%	$1,89 mmd
BNB	BNB	-2,8%	$1,52 mmd
NIGHT	Midnight	8,39%	$1,25 mmd
USD1	World Liberty Financial USD	-0,01%	$1,19 mmd
DOGE	Dogecoin	-5,12%	$1,12 mmd

NIGHT	Midnight	8,39%	$0,047 796
DEXE	DeXe	5,84%	$7,4
ONDO	Ondo	2,09%	$0,263 467
NEXO	Nexo	0,63%	$0,890 515
NFT	AINFT	0,12%	$0,0
USDC	USDC	0,02%	$1,0
USDG	Global Dollar	0,01%	$0,999 932
DAI	Dai	0,0%	$0,999 841

SIREN	siren	-37,58%	$1,48
RIVER	River	-19,98%	$17,34
KITE	Kite	-15,76%	$0,207 788
M	MemeCore	-8,02%	$2,04
AAVE	Aave	-7,95%	$105,64
WLD	Worldcoin	-7,54%	$0,293 459
VIRTUAL	Virtuals Protocol	-6,83%	$0,687 55
TAO	Bittensor	-6,8%	$337,31
ZEC	Zcash	-6,41%	$220,84
XMR	Monero	-6,13%	$323,5

Google presenta Gemini 3.1 Flash Live para conversaciones de voz más naturales y rápidas

Un modelo pensado para agentes de voz y tareas complejas

Mejor comprensión tonal y uso empresarial

Search Live y Gemini Live amplían su alcance global

Seguridad, trazabilidad y el reto de la desinformación

Suscríbete a nuestro boletín

Artículos Relacionados

Wikipedia prohíbe artículos generados por IA y solo deja dos excepciones

SpaceX apunta a la mayor IPO de la historia con una valoración de USD $1,75 billones

Trust Wallet suma trading con agentes de IA para sus 220 millones de usuarios

UE retrasa reglas clave de la Ley de IA y respalda prohibir apps que generan desnudos