Google lanza Gemini Embedding 2, su primer modelo multimodal para texto, imagen, video y audio

𝕏

Hace 8 minutos

Por Canuto

Google presentó Gemini Embedding 2, su primer modelo de incrustación nativamente multimodal, capaz de mapear texto, imágenes, video, audio y documentos dentro de un mismo espacio semántico. La propuesta busca simplificar tareas como búsqueda, clasificación y RAG, y ya está disponible en vista previa pública mediante la API de Gemini y Vertex AI.
***

Gemini Embedding 2 unifica texto, imágenes, video, audio y PDF en un solo espacio de incrustación.
El modelo admite más de 100 idiomas y ofrece dimensiones de salida flexibles desde su base de 3.072.
Google lo posiciona como una base para búsqueda semántica, RAG, análisis de sentimiento y clustering multimodal.

Google anunció el lanzamiento de Gemini Embedding 2, su primer modelo de incrustación nativamente multimodal, una pieza de infraestructura de IA diseñada para representar distintos tipos de contenido en un mismo espacio semántico. La compañía lo puso a disposición en vista previa pública a través de la API de Gemini y Vertex AI.

La novedad marca una expansión frente a la generación anterior de embeddings centrados solo en texto. Con este nuevo modelo, Google busca que desarrolladores y empresas puedan trabajar con texto, imágenes, video, audio y documentos sin depender de pipelines separados para cada modalidad.

En términos prácticos, esto significa que diferentes formatos de datos pueden convertirse en representaciones matemáticas comparables entre sí. Esa capacidad es clave para sistemas de búsqueda semántica, clasificación, agrupamiento de datos y flujos de recuperación aumentada por generación, mejor conocidos como RAG.

Según explicó Google en la presentación de Gemini Embedding 2: Our first natively multimodal embedding model, el nuevo sistema captura intención semántica en más de 100 idiomas. Ese alcance lo posiciona como una herramienta pensada para escenarios globales y para productos que requieren comprender información más allá de una sola lengua o formato.

Qué cambia con un embedding multimodal

Los embeddings son representaciones vectoriales que permiten convertir contenido complejo en valores numéricos que conservan relaciones de significado. En IA moderna, funcionan como una capa básica para comparar documentos, detectar similitudes, recomendar resultados y alimentar asistentes que deben recuperar contexto relevante.

Hasta ahora, muchos sistemas debían usar modelos distintos para texto, imagen o audio. Ese enfoque suele aumentar la complejidad técnica, ya que obliga a integrar varias herramientas, normalizar salidas y coordinar procesos adicionales para lograr una experiencia coherente.

Gemini Embedding 2 intenta resolver ese problema al mapear todas esas modalidades a un único espacio unificado. De esa manera, una consulta puede relacionarse con una fotografía, un clip de video, una grabación de voz o un archivo PDF, siempre que exista cercanía semántica entre los elementos.

Google también destacó que el modelo entiende entradas entrelazadas de manera nativa. Esto permite enviar en una sola solicitud combinaciones como imagen más texto, un detalle importante para aplicaciones del mundo real donde la información rara vez aparece aislada en un solo formato.

Esa capacidad de mezclar modalidades en el mismo flujo puede ser útil en buscadores empresariales, archivos multimedia, asistentes de productividad y motores de análisis documental. También puede mejorar sistemas que necesitan captar relaciones sutiles entre varios tipos de evidencia.

Las modalidades admitidas y los límites técnicos anunciados

Google detalló que Gemini Embedding 2 fue construido sobre la arquitectura Gemini y aprovecha sus capacidades de comprensión multimodal. En esta primera etapa, el modelo admite texto con un contexto de hasta 8.192 tokens de entrada.

En imágenes, puede procesar hasta 6 por solicitud y trabaja con formatos PNG y JPEG. Para video, acepta entradas de hasta 120 segundos en archivos MP4 y MOV, una ventana pensada para tareas de indexación, búsqueda y clasificación de clips relativamente cortos.

En audio, la compañía subrayó una diferencia relevante: el modelo ingiere e incrusta el contenido de voz o sonido de forma nativa, sin requerir transcripciones intermedias a texto. Ese detalle sugiere un mejor aprovechamiento de matices sonoros que podrían perderse en un paso previo de conversión.

El soporte documental también forma parte del paquete. Gemini Embedding 2 puede incrustar directamente archivos PDF de hasta 6 páginas, una función orientada a flujos de trabajo empresariales, gestión documental y sistemas que necesitan recuperar conocimiento a partir de materiales estructurados.

Google añadió que el modelo no se limita a procesar una modalidad por vez. Al aceptar entradas combinadas, el sistema puede captar relaciones entre medios distintos con más precisión, algo que la empresa presenta como una ventaja para interpretar datos complejos y escenarios cercanos al uso cotidiano.

Dimensiones flexibles y equilibrio entre calidad y almacenamiento

Otro de los puntos técnicos destacados es la incorporación de Matryoshka Representation Learning, o MRL. Esta técnica organiza la información de forma anidada para permitir reducciones dinámicas en las dimensiones de salida sin perder completamente la utilidad de la representación.

En la práctica, el modelo parte de una dimensión predeterminada de 3.072, pero los desarrolladores pueden ajustarla para encontrar un equilibrio entre rendimiento y costos de almacenamiento. Google recomendó usar 3.072, 1.536 o 768 dimensiones para obtener la calidad más alta dentro de las opciones disponibles.

Este detalle importa porque los embeddings suelen almacenarse en bases vectoriales que crecen con rapidez cuando el volumen de datos es grande. Reducir dimensiones puede abaratar infraestructura, aunque normalmente implica ciertas concesiones en precisión o riqueza semántica.

Al ofrecer salidas flexibles desde el diseño, Google apunta a cubrir tanto implementaciones de alto rendimiento como despliegues más sensibles a costos. Esa elasticidad puede ser especialmente relevante para startups, equipos de investigación o empresas que necesitan escalar búsquedas sobre grandes volúmenes de contenido.

Rendimiento, casos de uso y disponibilidad

Google afirmó que Gemini Embedding 2 no solo mejora sus modelos heredados, sino que fija un nuevo estándar de rendimiento en profundidad multimodal. La empresa aseguró que introduce capacidades sólidas de voz y que supera a modelos líderes en tareas de texto, imagen y video.

Aunque el anuncio no incluyó cifras comparativas específicas dentro del texto suministrado, sí presentó la mejora como un avance medible y como una propuesta más amplia en cobertura multimodal. Para desarrolladores, ese tipo de posicionamiento sugiere un intento de competir en una capa crítica de la infraestructura de IA generativa.

Entre los usos señalados aparecen RAG, búsqueda semántica, análisis de sentimiento y clustering de datos. Google remarcó que los embeddings ya impulsan experiencias en muchos de sus productos y que algunos socios de acceso temprano usan este modelo para desarrollar aplicaciones multimodales de alto valor.

La referencia a RAG es especialmente relevante en el contexto actual. En estos sistemas, los embeddings cumplen una función central al conectar una consulta con fragmentos de información útiles antes de que un modelo generativo produzca la respuesta final.

Además de la API de Gemini y Vertex AI, Google indicó que Gemini Embedding 2 puede utilizarse mediante herramientas y marcos ampliamente adoptados. Entre ellos mencionó LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB y Vector Search.

La compañía también invitó a los desarrolladores a explorar cuadernos interactivos de Colab y una demo ligera de búsqueda semántica multimodal. El mensaje final es claro: Google quiere que este modelo sirva como base para la próxima generación de experiencias avanzadas de IA, en un entorno donde la combinación de formatos y contextos será cada vez más importante.

En ese sentido, el lanzamiento no solo amplía las capacidades de Gemini, sino que refleja una tendencia más amplia en inteligencia artificial. La industria avanza hacia herramientas capaces de entender información de forma más cercana a como la reciben las personas, es decir, mezclando lenguaje, imágenes, sonido, documentos y contexto en una misma capa de interpretación.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,0%	$87,64 mmd
BTC	Bitcoin	-1,56%	$46,83 mmd
ETH	Ethereum	-1,48%	$20,56 mmd
USDC	USDC	0,0%	$12,78 mmd
SOL	Solana	-1,71%	$4,08 mmd
XRP	XRP	-0,5%	$2,82 mmd
DOGE	Dogecoin	-2,26%	$2,08 mmd
BNB	BNB	-0,86%	$1,54 mmd
USD1	World Liberty Financial USD	-0,03%	$1,43 mmd
XAUt	Tether Gold	-0,07%	$0,777 022 mmd

FET	Artificial Superintelligence Alliance	9,87%	$0,163 003
ICP	Internet Computer	8,81%	$2,73
PI	Pi	5,13%	$0,231 514
JST	JUST	3,66%	$0,051 827
RENDER	Render	2,76%	$1,52
IMX	Immutable	2,16%	$0,164 102
ATOM	Cosmos	1,96%	$1,82
AVAX	Avalanche	1,93%	$9,61
HYPE	Hyperliquid	1,85%	$35,46
DOT	Polkadot	1,55%	$1,53

DEXE	DeXe	-11,75%	$4,28
KITE	Kite	-10,89%	$0,260 414
NIGHT	Midnight	-8,17%	$0,050 91
ZEC	Zcash	-6,63%	$211,69
JUP	Jupiter	-5,33%	$0,164 89
SKY	Sky	-4,96%	$0,073 764
SEI	Sei	-3,76%	$0,062 542
CRV	Curve DAO Token	-3,74%	$0,241 285
WLD	Worldcoin	-3,25%	$0,360 274
DASH	Dash	-3,01%	$31,99

Google lanza Gemini Embedding 2, su primer modelo multimodal para texto, imagen, video y audio

Qué cambia con un embedding multimodal

Las modalidades admitidas y los límites técnicos anunciados

Dimensiones flexibles y equilibrio entre calidad y almacenamiento

Rendimiento, casos de uso y disponibilidad

Suscríbete a nuestro boletín

Artículos Relacionados

Wall Street ve un piso en software tras el golpe por temor a la IA

Bitcoin cede bajo USD $70.000 por tensión con Irán y previo a los datos de inflación en EEUU

Microsoft respalda a Anthropic ante tribunal por veto del Pentágono

Anthropic crea un instituto para estudiar la IA mientras enfrenta una lista negra del Pentágono