Por Canuto  

Google presentó una nueva arquitectura para acelerar Gemini Nano en los teléfonos Pixel 9 y 10 mediante una variante de Predicción de Multi-Tokens adaptada a modelos congelados. La compañía asegura que el cambio mejora la velocidad de generación, reduce el uso de memoria y baja el consumo energético en funciones de IA que corren directamente en el dispositivo.
***

  • Google adaptó la Predicción de Multi-Tokens a Gemini Nano v3 congelado para acelerar la inferencia en Pixel.
  • La empresa reportó aceleraciones de 50% o más en Pixel 9, además de ahorros de hasta 130 MB por instancia frente a redactores independientes.
  • La optimización ya fue implementada en Pixel 9 y 10 para funciones como Resúmenes de Notificaciones de IA y Corrección.


Google anunció una nueva arquitectura para acelerar los modelos Gemini Nano en teléfonos Pixel mediante una variante de Predicción de Multi-Tokens, o MTP por sus siglas en inglés. La propuesta apunta a resolver uno de los grandes cuellos de botella de la IA generativa en móviles: generar texto con rapidez sin disparar el uso de memoria ni el consumo energético.

La novedad fue presentada el 26 de junio de 2026 por Eden Cohen, gerente de producto de Investigación, y Michelle Ramanovich, gerente de Investigación en Google Platforms and Devices. Según explicó la compañía, el enfoque ya fue desplegado en las series Pixel 9 y Pixel 10 como una aceleración lista para usar.

Para los usuarios, esto se traduce en funciones más ágiles en el propio dispositivo, como Resúmenes de Notificaciones de IA y Corrección. Para los desarrolladores, la ventaja es evitar el ajuste de modelos redactores separados, un proceso que puede resultar pesado en memoria y complejo de mantener para cada tarea.

El anuncio resulta relevante en un momento en el que la industria busca mover más capacidades de IA desde la nube hacia el borde. Ese cambio promete más privacidad y menor dependencia de centros de datos, pero también obliga a exprimir al máximo los recursos limitados de un teléfono inteligente.

En el caso de Gemini Nano y otros modelos locales como Gemma, el reto es severo porque los móviles operan bajo límites estrictos de energía y RAM. A diferencia de un servidor, un teléfono no puede permitirse desperdiciar memoria ni mantener procesadores pesados activos por más tiempo del necesario.

Por qué la IA en el dispositivo necesita otra arquitectura

Google parte de una limitación básica de los modelos autoregresivos. En ese esquema, el sistema produce texto token por token, de forma secuencial, lo que crea un proceso paso a paso que termina frenando la experiencia del usuario.

Ese patrón también castiga la eficiencia del hardware móvil. Mientras el modelo genera una sola pieza de texto por pasada, parte de la capacidad de cómputo queda infrautilizada y el ancho de banda de memoria se convierte en el verdadero cuello de botella.

La empresa sostuvo que este diseño puede ralentizar tareas cotidianas y afectar la batería. En la práctica, una función tan simple como corregir un mensaje o resumir varias notificaciones exige una cadena de inferencias que debe completarse con rapidez para que el usuario la sienta natural.

Para atacar el problema, Google se apoyó en ideas previas de decodificación especulativa y las adaptó a un entorno móvil mucho más restrictivo. La compañía citó como base conceptual el marco EAGLE y el enfoque de Modelado de Lenguaje Adaptativo Confiable, o CALM.

El giro principal consiste en llevar la Predicción de Multi-Tokens a un modelo de producción ya desplegado y congelado. En vez de rehacer el modelo base o incorporar un sistema externo pesado, la firma añadió una cabeza ligera capaz de redactar varios tokens futuros usando el trabajo ya hecho por la columna vertebral principal.

Cómo funciona la estrategia de salida tardía

En una configuración tradicional, generar N tokens requiere N pasadas hacia adelante del modelo grande. La decodificación especulativa divide ese trabajo en dos fases: una de borrador y otra de verificación.

En la primera fase, un modelo más pequeño y rápido propone una secuencia corta de tokens candidatos, por ejemplo tres tokens. En la segunda, el modelo grande procesa esos candidatos en paralelo y acepta solo los que coinciden con lo que él mismo habría predicho.

Si aparece una divergencia, el sistema retrocede al primer punto de desacuerdo y continúa desde allí. Este mecanismo puede ahorrar tiempo, pero en móviles introduce costos propios cuando el redactor es un modelo independiente con decenas o cientos de millones de parámetros.

Google explicó que un redactor independiente compite por RAM escasa y, además, opera como una caja negra separada del modelo principal. Eso significa que intenta predecir el siguiente token usando solo el historial textual, sin acceso directo al contexto semántico profundo ya calculado por el modelo grande.

La alternativa presentada por la empresa reemplaza esa arquitectura separada por una integrada. En lugar de entrenar un pequeño modelo de lenguaje independiente, Google añade una cabeza Transformer ligera a las capas finales del modelo principal para anticipar autoregresivamente una secuencia de tokens futuros.

Qué significa trabajar con una columna vertebral congelada

Una parte central del anuncio es que la adaptación se hizo sobre Gemini Nano v3 ya entrenado. Google tomó el modelo completo, congeló sus pesos y acopló una pila densa de transformadores, descrita como la cabeza MTP, sobre las últimas capas.

Después, solo entrenó esos nuevos parámetros para minimizar el error de predicción en tokens futuros. Esto evita el costo de volver a preentrenar la columna vertebral, un paso que la compañía considera prohibitivo cuando se trata de modelos de base ya desplegados en millones de dispositivos.

Según la empresa, esta decisión convierte a MTP en una optimización puramente de eficiencia. En otras palabras, el objetivo es ganar velocidad y reducir costos operativos sin alterar las capacidades fundamentales del modelo ni su alineación de seguridad.

Google afirmó además que, como los borradores incorrectos se descartan durante la verificación, la salida final permanece idéntica bit a bit a la del modelo principal. Ese detalle es importante porque permite introducir mejoras de rendimiento con plena compatibilidad hacia atrás.

La relevancia técnica de este punto va más allá del caso Pixel. En entornos regulados o sensibles, una actualización que modifica latencia y consumo, pero no el resultado final del modelo, puede facilitar despliegues graduales y reducir riesgos de comportamiento inesperado.

La arquitectura sin copia cero y el ahorro de memoria

Otro elemento destacado del trabajo es la llamada arquitectura sin copia cero. Google señaló que las implementaciones estándar de MTP suelen optimizar el entrenamiento compartiendo parámetros estáticos, como pesos de embeddings, entre el modelo principal y el redactor.

Sin embargo, en inferencia móvil el cuello de botella más severo no siempre está en esos pesos estáticos. El problema aparece en la memoria dinámica, porque un redactor que procesa el contexto por su cuenta debe crear y mantener su propio caché clave-valor, o caché KV.

Esa duplicación introduce lo que la compañía definió como un doble impuesto de memoria. En un teléfono, donde cada megabyte importa, mantener dos historias paralelas para modelo y redactor puede volver inviable la aceleración que se busca conseguir.

Para resolverlo, la cabeza MTP fue diseñada para atender directamente el caché KV congelado del modelo principal. Así, el redactor consulta las memorias y el contexto ya computados por la columna vertebral sin necesidad de duplicarlos.

Google aseguró que este diseño elimina la latencia de preparación del redactor y reduce la huella de memoria en tiempo de ejecución. La empresa dijo haber observado ahorros de hasta 130 MB por instancia frente a un redactor independiente, al evitar tablas de búsqueda de embeddings propias, variantes de atención pre-preparadas y parámetros de ajuste específicos de la aplicación.

Rendimiento en Pixel 9 y efectos sobre batería

En sus experimentos, Google indicó que los redactores MTP generaron predicciones de tokens más precisas que los redactores independientes de tamaño comparable. Esa mejora, añadió, se tradujo en aceleraciones de 50% o más en dispositivos Pixel 9, según la tarea evaluada.

La empresa atribuyó esa brecha al acceso directo de MTP a representaciones más ricas. En vez de tratar al modelo principal como una caja negra, la cabeza usa las activaciones finales ya procesadas por la columna vertebral grande.

En tareas de seguimiento de instrucciones, como resumir o reescribir bajo restricciones complejas, Google dijo que MTP superó de forma significativa a redactores independientes ajustados finamente. El resultado sugiere que no solo importa el tamaño del redactor, sino la calidad del contexto interno que puede aprovechar.

La firma también reportó mejoras fuertes en tareas con estructuras de texto predecibles, como respuestas inteligentes. Allí, la cabeza MTP aprendió patrones sintácticos del modelo principal y logró hasta una mejora de 55% en la aceptación de tokens.

Ya en cargas de trabajo de producción para Pixel 9 y 10, la compañía afirmó que MTP acierta casi dos tokens adicionales por pasada de inferencia en promedio. Menos pasos de verificación implican menos tiempo activando procesadores pesados, lo que reduce el consumo de energía y favorece la duración de la batería.

Implicaciones para desarrolladores y próximos pasos

Más allá de la mejora visible para el usuario, el anuncio tiene una lectura importante para quienes construyen productos de IA local. Google plantea que esta arquitectura elimina un punto de fricción clave al evitar la necesidad de mantener redactores separados y pesados en memoria para cada nueva tarea.

Ese enfoque puede simplificar la expansión de funciones de IA en móviles, sobre todo en aplicaciones donde la privacidad y la respuesta inmediata pesan más que la potencia bruta de la nube. También puede abrir un camino para que más herramientas de escritura, asistencia o resumen operen sin sacar datos del dispositivo.

Google dijo que espera integrar MTP en futuros dispositivos Pixel. De forma paralela, la compañía estudia arquitecturas alternativas, entre ellas decodificación paralela y paradigmas sin cabezas auxiliares, con la meta de reducir aún más la latencia de borrado e incrementar la verificación simultánea de tokens bajo límites móviles estrictos.

La empresa también investiga formas de manejar mejor la ambigüedad inherente a la generación de lenguaje. Según explicó, la decodificación especulativa estándar asume un único mejor camino futuro, mientras que el siguiente paso sería permitir que el modelo explore ramas en paralelo para elevar la probabilidad de aceptar secuencias largas incluso en contextos inciertos.

Otra línea de trabajo mencionada por Google es la laxitud en la verificación. Esa idea consiste en relajar la coincidencia exacta de tokens entre borrador y verificador en casos de uso específicos, con la intención de extraer eficiencias adicionales en el borde sin comprometer la utilidad práctica del sistema.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín