
El nuevo modelo está pensado para dispositivos de baja gamma, entre ellos equipos móviles, ofreciendo grandes capacidades y rendimiento en gran cantidad de tareas.
***
- Gemma 3n es el nuevo modelo de IA abierta de Google con soporte para imagen, audio, video y texto.
- Está diseñado para ejecutarse en dispositivos con solo 2GB de memoria gracias a su arquitectura eficiente.
- Se encuentra disponible desde ya en plataformas como Hugging Face, Kaggle y Google AI Studio.
Google presentó oficialmente Gemma 3n, la nueva generación de su familia de modelos de inteligencia artificial abierta, destacándose por su enfoque multimodal y su capacidad de ejecución local en hardware con recursos limitados, entre ellos dispositivos móviles.
Tras una vista previa durante el evento Google I/O, el modelo completo ya está disponible para que desarrolladores lo descarguen y utilicen libremente. A diferencia de Gemini, que es cerrado y enfocado al consumo masivo, Gemma está pensado para el desarrollo independiente y la investigación, reseña Neowin.
¿Qué es Gemma?
Gemma es la línea de modelos abiertos de Google, distinta de su plataforma propietaria Gemini. Su objetivo es proporcionar herramientas accesibles y modificables para desarrolladores e investigadores. Con la versión 3n, la empresa introduce soporte nativo para entradas de imagen, audio, video y texto, lo que representa un salto significativo respecto a sus versiones anteriores basadas únicamente en texto.
La incorporación de estas capacidades multimodales permite generar texto a partir de distintos tipos de datos, facilitando su integración en aplicaciones móviles, herramientas educativas, asistentes inteligentes y más.
Uno de los avances más destacados de Gemma 3n es su arquitectura base, llamada MatFormer. Según Google, este diseño permite contener versiones funcionales más pequeñas dentro de una arquitectura más grande, como una muñeca rusa. De esta manera, un solo modelo puede operar en distintos tamaños según el tipo de tarea, optimizando el uso de recursos.
Los dos tamaños principales disponibles son E2B y E4B, con 5.000 millones y 8.000 millones de parámetros, respectivamente. Sin embargo, gracias a innovaciones como Per Layer Embeddings (PLE) y nuevos codificadores para audio y visión, su uso de memoria se mantiene equivalente a modelos de 2.000 y 4.000 millones de parámetros. Esto permite que el modelo funcione incluso en dispositivos con tan solo 2GB de RAM.
Rendimiento y capacidades mejoradas
Google afirma que Gemma 3n ofrece mejoras sustanciales en tareas de razonamiento, codificación y multilingüismo. Soporta 140 idiomas para procesamiento de texto, y 35 idiomas en su comprensión multimodal.
En el apartado de visión por computadora, se utiliza el nuevo codificador MobileNet-V5, diseñado para funcionar de forma eficiente incluso en teléfonos móviles. Este componente es capaz de procesar video a 60 FPS en dispositivos como Pixel de Google.
Por su parte, el codificador de audio permite realizar tareas como reconocimiento de voz y traducción directamente en el dispositivo, sin necesidad de conexión a la nube.
Posibilidades de uso inmediato
Los desarrolladores interesados pueden acceder a Gemma 3n de forma inmediata a través de plataformas como Hugging Face, Kaggle, y Google AI Studio. Esta disponibilidad anticipada abre la puerta para una rápida adopción en proyectos de IA que requieren ejecución local, ya sea por razones de privacidad, eficiencia energética o costo.
Además, Gemma 3n se posiciona como el primer modelo con menos de 10.000 millones de parámetros en superar la marca de 1.300 puntos en la prueba LMArena, un medidor para la calidad general de los modelos de lenguaje.
Con el lanzamiento de Gemma 3n, Google se posiciona fuertemente en el segmento de IA accesible y eficiente, respondiendo tanto a las demandas de la comunidad de desarrolladores como a las necesidades técnicas del edge computing.
La posibilidad de contar con un modelo potente, versátil y funcional en hardware limitado representa una oportunidad única para crear herramientas más independientes, privadas y personalizadas. Esto marca un paso importante hacia un ecosistema de inteligencia artificial más distribuido, sin depender completamente de soluciones en la nube.
Artículo escrito por un redactor de contenido de IA. Editado por Angel Di Matteo / DiarioBitcoin
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados

“30% de nuestro trabajo interno ya lo desempeña la IA”, afirma CEO de Salesforce

Ark Invest vende más de USD $24 millones en acciones de Coinbase y Circle

Kraken lanza Krak, su nueva aplicación de pagos para competir con PayPal y Venmo
