Por Canuto  

Google presentó DiffusionGemma, un modelo experimental abierto que explora la difusión de texto para acelerar la generación en equipos locales. La compañía asegura que su sistema puede producir hasta 4 veces más velocidad que enfoques tradicionales en ciertas GPU, aunque reconoce que todavía queda por detrás de Gemma 4 en calidad general.
***

  • Google lanzó DiffusionGemma como modelo experimental abierto bajo licencia Apache 2.0.
  • El sistema usa difusión de texto y genera bloques completos en paralelo, en vez de token por token.
  • La empresa afirma que alcanza más de 1.000 tokens por segundo en NVIDIA H100 y más de 700 en RTX 5090.


Google presentó DiffusionGemma, un modelo experimental abierto con el que busca explorar una vía distinta para generar texto con inteligencia artificial. En lugar de seguir el patrón secuencial de los grandes modelos de lenguaje autorregresivos, el sistema produce bloques completos de texto de forma simultánea, una decisión técnica con la que la compañía promete hasta 4 veces más velocidad de inferencia en GPU dedicadas.

La propuesta llega en un momento en que la latencia sigue siendo uno de los principales obstáculos para aplicaciones de IA interactivas, sobre todo cuando se ejecutan en equipos locales. Según explicó Google en la publicación Introducing DiffusionGemma, el modelo fue pensado para investigadores y desarrolladores interesados en flujos de trabajo donde la rapidez de respuesta importa más que la máxima calidad posible.

Ese matiz es importante. La propia empresa deja claro que los modelos autorregresivos de Gemma 4 siguen siendo su referencia para resultados de mayor calidad. DiffusionGemma, en cambio, se posiciona como una plataforma de experimentación enfocada en velocidad, edición en línea, iteración rápida y generación de estructuras de texto no lineales.

El lanzamiento también destaca por su apertura. Google distribuye DiffusionGemma bajo licencia Apache 2.0, lo que facilita su descarga, integración y modificación en entornos de investigación y desarrollo. La compañía acompañó el anuncio con acceso a pesos del modelo, documentación técnica y soporte para varias herramientas del ecosistema.

Qué es DiffusionGemma y por qué se aparta del diseño tradicional

DiffusionGemma es un modelo de Mezcla de Expertos, o MoE, de 26B de parámetros. Sin embargo, durante la inferencia activa solo 3.8B de parámetros, lo que reduce sus exigencias operativas frente a lo que podría sugerir su tamaño nominal. Google afirma que, cuantizado, puede funcionar dentro de un margen de 18 GB de VRAM, una cifra que lo acerca a GPU dedicadas de consumo de gama alta.

La base conceptual del sistema se aparta de la lógica típica de los LLMs actuales. En vez de generar una palabra o token por turno, de izquierda a derecha, DiffusionGemma trabaja con bloques de 256 tokens en paralelo. Eso cambia la relación entre el modelo y el hardware, porque desplaza el cuello de botella de la memoria hacia la computación.

En términos prácticos, la empresa compara la diferencia con pasar de una máquina de escribir a una gran imprenta. Un modelo autorregresivo avanza golpe a golpe, mientras que un sistema de difusión redacta y refina un párrafo completo a la vez. Para un entorno local y de baja concurrencia, esa estrategia puede aprovechar mucho mejor la capacidad disponible en una GPU o TPU dedicada.

Google subraya que esta ventaja no se traslada de forma automática a todos los escenarios. En servicios de nube con alta concurrencia y muchas solicitudes por segundo, los modelos autorregresivos pueden agruparse de forma eficiente para saturar la capacidad de cómputo. En ese contexto, la decodificación paralela de DiffusionGemma podría ofrecer rendimientos decrecientes e incluso elevar los costos del servicio.

Velocidad, hardware y casos de uso que priorizan latencia

Uno de los datos más destacados del anuncio es el desempeño bruto. Google asegura que DiffusionGemma puede superar los 1.000 tokens por segundo en una sola NVIDIA H100 y pasar de 700 tokens por segundo en una NVIDIA GeForce RTX 5090. La empresa presenta estas cifras como evidencia de que el modelo está orientado a inferencia local rápida, sobre todo en configuraciones con lotes pequeños o medianos sobre un único acelerador.

La compañía también destaca la atención bidireccional como una de las claves del modelo. Al generar 256 tokens en paralelo en cada paso hacia adelante, cada token puede atender a todos los demás. Eso le da ventajas en dominios donde el contexto no sigue una secuencia estrictamente lineal, como la edición en línea, el llenado de código, las secuencias de aminoácidos o los gráficos matemáticos.

Otro rasgo central es la capacidad de autocorrección. Como el sistema evalúa un bloque completo de texto durante el refinamiento, puede ajustar errores sobre la marcha y no solo reaccionar ante el token inmediatamente anterior. Google sostiene que este enfoque desbloquea patrones útiles, como cerrar con precisión formatos complejos en markdown o generar y renderizar código en tiempo real.

La empresa ofreció además un ejemplo de ajuste fino desarrollado por Unsloth para resolver Sudoku. Según la explicación compartida, esta es una tarea donde los modelos autorregresivos suelen tropezar, porque cada token puede depender de tokens futuros. En DiffusionGemma, la atención bidireccional facilita ese tipo de resolución al considerar el bloque completo como contexto.

Cómo funciona la difusión de texto

Para lectores menos familiarizados con esta técnica, el enfoque de difusión es más conocido en generación de imágenes que en texto. En imágenes, el modelo parte de una especie de ruido o estática y luego refina iterativamente el resultado hasta obtener una escena coherente. DiffusionGemma aplica una idea parecida, pero sobre secuencias textuales.

El proceso descrito por Google empieza con un lienzo compuesto por tokens aleatorios de marcador de posición. Luego, el modelo realiza varias pasadas en las que va fijando los tokens correctos y usando esas piezas como pistas para mejorar el resto del bloque. El resultado final emerge tras una última fase de pulido, cuando la secuencia converge hacia una salida más estable.

La empresa recuerda que la comunidad de investigación lleva años explorando la difusión para texto, pero que escalar ese enfoque a modelos grandes ha sido difícil. En este caso, Google argumenta que DiffusionGemma marca un paso relevante porque reorganiza mejor el uso del hardware y convierte ese reto en una oportunidad para inferencia local de alta velocidad.

Con todo, el anuncio no presenta la tecnología como una sustitución inmediata de los modelos clásicos. Google reconoce de forma explícita que la calidad de salida general de DiffusionGemma es inferior a la de Gemma 4 estándar. Para aplicaciones donde la precisión y la calidad sean prioritarias, la recomendación oficial sigue siendo implementar Gemma 4 tradicional.

Ecosistema, herramientas compatibles y despliegue

Google puso el modelo a disposición de la comunidad mediante Hugging Face e indicó que los desarrolladores pueden integrarlo con herramientas como MLX, vLLM, con integración soportada por Red Hat, y Hugging Face Transformers. También anunció un tutorial de ajuste fino con Hackable Diffusion, una caja de herramientas modular de JAX orientada a la composabilidad.

El ecosistema de ajuste fino también incluye opciones con Unsloth y NVIDIA NeMo. Además, la empresa adelantó que el soporte oficial para llama.cpp llegará pronto. Ese detalle es relevante porque llama.cpp suele ser una de las rutas más populares para correr modelos localmente en hardware de consumo y en entornos más ligeros.

En el frente de hardware, Google señaló que trabajó con NVIDIA para optimizar el modelo en su pila tecnológica. La compatibilidad incluye configuraciones de consumo cuantizadas para GeForce RTX 5090 y 4090, junto con alto rendimiento en sistemas empresariales Hopper y Blackwell mediante núcleos NVFP4 avanzados. También mencionó equipos como NVIDIA DGX Spark, DGX Station y RTX PRO para implementación local en escritorios profesionales.

La empresa agregó que el soporte nativo para NVFP4, o punto flotante de 4 bits, acelera el rendimiento de cálculo con precisión casi sin pérdida. Quienes prefieran entornos alojados también podrán probar el sistema en la nube a través de Gemini Enterprise Agent Platform Model Garden o NVIDIA NIM, además de la opción de usar una GPU dedicada de escritorio.

Lo que significa este lanzamiento para el mercado de IA

Más allá del producto puntual, DiffusionGemma refleja una tendencia cada vez más visible en inteligencia artificial: la búsqueda de arquitecturas más especializadas según el caso de uso. En los últimos años, gran parte del debate se concentró en aumentar tamaño, contexto y capacidad general. Este anuncio vuelve a poner sobre la mesa otra variable crítica, la latencia.

Para desarrolladores que crean asistentes locales, editores inteligentes o herramientas de programación en tiempo real, una respuesta más rápida puede ser más valiosa que una mejora marginal en calidad. Ahí es donde Google intenta abrir espacio para un modelo que no compita solo por exactitud, sino por experiencia de uso y eficiencia en escenarios concretos.

La contrapartida es clara. DiffusionGemma no reemplaza a Gemma 4 ni pretende ser la solución universal. Su atractivo depende de aceptar un intercambio entre velocidad y calidad, algo que la propia compañía expone sin rodeos. Esa honestidad también sugiere que el lanzamiento está dirigido a una comunidad técnica dispuesta a experimentar, ajustar y descubrir nichos donde el enfoque de difusión textual tenga ventajas reales.

Si esa apuesta prospera, el impacto podría extenderse más allá de este modelo en particular. La idea de generar texto por bloques paralelos, con autocorrección y atención bidireccional completa, abre una ruta de investigación que podría influir en futuros sistemas abiertos y comerciales. Por ahora, Google lo presenta como un experimento potente, rápido y prometedor, pero todavía en evolución.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín