Google presentó Gemini Embedding 2, su primer modelo de incrustación nativamente multimodal, capaz de mapear texto, imágenes, video, audio y documentos dentro de un mismo espacio semántico. La propuesta busca simplificar tareas como búsqueda, clasificación y RAG, y ya está disponible en vista previa pública mediante la API de Gemini y Vertex AI.
***
- Gemini Embedding 2 unifica texto, imágenes, video, audio y PDF en un solo espacio de incrustación.
- El modelo admite más de 100 idiomas y ofrece dimensiones de salida flexibles desde su base de 3.072.
- Google lo posiciona como una base para búsqueda semántica, RAG, análisis de sentimiento y clustering multimodal.
Google anunció el lanzamiento de Gemini Embedding 2, su primer modelo de incrustación nativamente multimodal, una pieza de infraestructura de IA diseñada para representar distintos tipos de contenido en un mismo espacio semántico. La compañía lo puso a disposición en vista previa pública a través de la API de Gemini y Vertex AI.
La novedad marca una expansión frente a la generación anterior de embeddings centrados solo en texto. Con este nuevo modelo, Google busca que desarrolladores y empresas puedan trabajar con texto, imágenes, video, audio y documentos sin depender de pipelines separados para cada modalidad.
En términos prácticos, esto significa que diferentes formatos de datos pueden convertirse en representaciones matemáticas comparables entre sí. Esa capacidad es clave para sistemas de búsqueda semántica, clasificación, agrupamiento de datos y flujos de recuperación aumentada por generación, mejor conocidos como RAG.
Según explicó Google en la presentación de Gemini Embedding 2: Our first natively multimodal embedding model, el nuevo sistema captura intención semántica en más de 100 idiomas. Ese alcance lo posiciona como una herramienta pensada para escenarios globales y para productos que requieren comprender información más allá de una sola lengua o formato.
Qué cambia con un embedding multimodal
Los embeddings son representaciones vectoriales que permiten convertir contenido complejo en valores numéricos que conservan relaciones de significado. En IA moderna, funcionan como una capa básica para comparar documentos, detectar similitudes, recomendar resultados y alimentar asistentes que deben recuperar contexto relevante.
Hasta ahora, muchos sistemas debían usar modelos distintos para texto, imagen o audio. Ese enfoque suele aumentar la complejidad técnica, ya que obliga a integrar varias herramientas, normalizar salidas y coordinar procesos adicionales para lograr una experiencia coherente.
Gemini Embedding 2 intenta resolver ese problema al mapear todas esas modalidades a un único espacio unificado. De esa manera, una consulta puede relacionarse con una fotografía, un clip de video, una grabación de voz o un archivo PDF, siempre que exista cercanía semántica entre los elementos.
Google también destacó que el modelo entiende entradas entrelazadas de manera nativa. Esto permite enviar en una sola solicitud combinaciones como imagen más texto, un detalle importante para aplicaciones del mundo real donde la información rara vez aparece aislada en un solo formato.
Esa capacidad de mezclar modalidades en el mismo flujo puede ser útil en buscadores empresariales, archivos multimedia, asistentes de productividad y motores de análisis documental. También puede mejorar sistemas que necesitan captar relaciones sutiles entre varios tipos de evidencia.
Las modalidades admitidas y los límites técnicos anunciados
Google detalló que Gemini Embedding 2 fue construido sobre la arquitectura Gemini y aprovecha sus capacidades de comprensión multimodal. En esta primera etapa, el modelo admite texto con un contexto de hasta 8.192 tokens de entrada.
En imágenes, puede procesar hasta 6 por solicitud y trabaja con formatos PNG y JPEG. Para video, acepta entradas de hasta 120 segundos en archivos MP4 y MOV, una ventana pensada para tareas de indexación, búsqueda y clasificación de clips relativamente cortos.
En audio, la compañía subrayó una diferencia relevante: el modelo ingiere e incrusta el contenido de voz o sonido de forma nativa, sin requerir transcripciones intermedias a texto. Ese detalle sugiere un mejor aprovechamiento de matices sonoros que podrían perderse en un paso previo de conversión.
El soporte documental también forma parte del paquete. Gemini Embedding 2 puede incrustar directamente archivos PDF de hasta 6 páginas, una función orientada a flujos de trabajo empresariales, gestión documental y sistemas que necesitan recuperar conocimiento a partir de materiales estructurados.
Google añadió que el modelo no se limita a procesar una modalidad por vez. Al aceptar entradas combinadas, el sistema puede captar relaciones entre medios distintos con más precisión, algo que la empresa presenta como una ventaja para interpretar datos complejos y escenarios cercanos al uso cotidiano.
Dimensiones flexibles y equilibrio entre calidad y almacenamiento
Otro de los puntos técnicos destacados es la incorporación de Matryoshka Representation Learning, o MRL. Esta técnica organiza la información de forma anidada para permitir reducciones dinámicas en las dimensiones de salida sin perder completamente la utilidad de la representación.
En la práctica, el modelo parte de una dimensión predeterminada de 3.072, pero los desarrolladores pueden ajustarla para encontrar un equilibrio entre rendimiento y costos de almacenamiento. Google recomendó usar 3.072, 1.536 o 768 dimensiones para obtener la calidad más alta dentro de las opciones disponibles.
Este detalle importa porque los embeddings suelen almacenarse en bases vectoriales que crecen con rapidez cuando el volumen de datos es grande. Reducir dimensiones puede abaratar infraestructura, aunque normalmente implica ciertas concesiones en precisión o riqueza semántica.
Al ofrecer salidas flexibles desde el diseño, Google apunta a cubrir tanto implementaciones de alto rendimiento como despliegues más sensibles a costos. Esa elasticidad puede ser especialmente relevante para startups, equipos de investigación o empresas que necesitan escalar búsquedas sobre grandes volúmenes de contenido.
Rendimiento, casos de uso y disponibilidad
Google afirmó que Gemini Embedding 2 no solo mejora sus modelos heredados, sino que fija un nuevo estándar de rendimiento en profundidad multimodal. La empresa aseguró que introduce capacidades sólidas de voz y que supera a modelos líderes en tareas de texto, imagen y video.
Aunque el anuncio no incluyó cifras comparativas específicas dentro del texto suministrado, sí presentó la mejora como un avance medible y como una propuesta más amplia en cobertura multimodal. Para desarrolladores, ese tipo de posicionamiento sugiere un intento de competir en una capa crítica de la infraestructura de IA generativa.
Entre los usos señalados aparecen RAG, búsqueda semántica, análisis de sentimiento y clustering de datos. Google remarcó que los embeddings ya impulsan experiencias en muchos de sus productos y que algunos socios de acceso temprano usan este modelo para desarrollar aplicaciones multimodales de alto valor.
La referencia a RAG es especialmente relevante en el contexto actual. En estos sistemas, los embeddings cumplen una función central al conectar una consulta con fragmentos de información útiles antes de que un modelo generativo produzca la respuesta final.
Además de la API de Gemini y Vertex AI, Google indicó que Gemini Embedding 2 puede utilizarse mediante herramientas y marcos ampliamente adoptados. Entre ellos mencionó LangChain, LlamaIndex, Haystack, Weaviate, QDrant, ChromaDB y Vector Search.
La compañía también invitó a los desarrolladores a explorar cuadernos interactivos de Colab y una demo ligera de búsqueda semántica multimodal. El mensaje final es claro: Google quiere que este modelo sirva como base para la próxima generación de experiencias avanzadas de IA, en un entorno donde la combinación de formatos y contextos será cada vez más importante.
En ese sentido, el lanzamiento no solo amplía las capacidades de Gemini, sino que refleja una tendencia más amplia en inteligencia artificial. La industria avanza hacia herramientas capaces de entender información de forma más cercana a como la reciben las personas, es decir, mezclando lenguaje, imágenes, sonido, documentos y contexto en una misma capa de interpretación.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
IA
Wall Street ve un piso en software tras el golpe por temor a la IA
AltCoins
Bitcoin cede bajo USD $70.000 por tensión con Irán y previo a los datos de inflación en EEUU
Empresas
Microsoft respalda a Anthropic ante tribunal por veto del Pentágono
Empresas