Por Angel Di Matteo   𝕏 @shadowargel

Xiaomi presentó una nueva versión de su modelo MiMo, capaz de generar más de 1.000 tokens por segundo utilizando hardware estándar basado en GPUs. El avance desafía algunas de las principales tesis detrás de empresas especializadas en aceleración de IA y podría ampliar significativamente el acceso a inferencia de alta velocidad para desarrolladores y empresas.

***

  • Xiaomi reporta velocidades superiores a 1.000 tokens por segundo con MiMo-V2.5-Pro-UltraSpeed.
  • El sistema opera sobre un único nodo con ocho GPUs convencionales, sin chips propietarios.
  • La compañía combina cuantización FP4, decodificación especulativa y un nuevo motor llamado TileRT.

 

La empresa china Xiaomi, ampliamente conocida por sus teléfonos inteligentes, scooters eléctricos y dispositivos para el hogar conectado, sorprendió esta semana al ecosistema de inteligencia artificial tras anunciar una nueva modalidad de inferencia para su modelo MiMo-V2.5-Pro capaz de superar los 1.000 tokens por segundo.

Según la compañía, la nueva versión denominada MiMo-V2.5-Pro-UltraSpeed alcanza velocidades sostenidas cercanas a los 1.000 tokens por segundo y puede aproximarse a los 1.200 tokens por segundo en determinadas demostraciones. Lo más llamativo es que el desempeño se obtuvo utilizando un único servidor equipado con ocho GPUs convencionales, sin necesidad de hardware especializado diseñado específicamente para IA.

El anuncio, reseñado por Decrypt, llega en momentos en que la velocidad de inferencia se ha convertido en uno de los principales campos de batalla de la industria. Mientras la atención pública suele concentrarse en el tamaño o las capacidades de los modelos, para muchas aplicaciones empresariales la rapidez con la que estos pueden generar respuestas es igualmente importante.

Un desafío para el negocio de la aceleración de IA

La cifra resulta especialmente llamativa al compararla con algunos de los modelos más utilizados actualmente.

De acuerdo con datos citados por Xiaomi, modelos comerciales ampliamente conocidos operan a velocidades considerablemente inferiores. GPT-5.5, utilizado por muchos usuarios de ChatGPT, se sitúa alrededor de los 68 tokens por segundo. Claude Opus 4.6 ronda los 71 tokens por segundo, mientras que Gemini Flash alcanza cerca de 192 tokens por segundo.

La comparación adquiere mayor relevancia porque MiMo-V2.5-Pro no es un modelo ligero ni simplificado. Se trata de un sistema con aproximadamente un billón de parámetros, una escala comparable a la de los modelos más avanzados del mercado.

Hasta ahora, empresas como Cerebras y Groq habían construido gran parte de su propuesta de valor alrededor de la aceleración extrema de inferencia mediante hardware especializado. Cerebras, por ejemplo, desarrolló un procesador de tamaño similar a un plato de comida capaz de alcanzar velocidades cercanas a 969 tokens por segundo en determinados modelos. Groq, por su parte, ha reportado desempeños que oscilan entre 300 y 750 tokens por segundo dependiendo de la carga de trabajo.

La diferencia es que Xiaomi asegura haber conseguido resultados similares utilizando infraestructura basada en GPUs convencionales que pueden encontrarse fácilmente en centros de datos comerciales.

Cómo logró Xiaomi aumentar la velocidad

La compañía atribuye el avance a una combinación de optimizaciones de software y arquitectura.

Uno de los elementos centrales es el uso de FP4 Quantization, una técnica que reduce la precisión numérica de determinadas capas del modelo desde formatos tradicionales de 8 o 16 bits hacia representaciones de 4 bits. Esto disminuye significativamente el consumo de memoria y reduce la presión sobre el ancho de banda de los procesadores.

Normalmente este tipo de compresión implica una pérdida de calidad. Sin embargo, Xiaomi asegura haber limitado la cuantización únicamente a las llamadas capas expertas, que representan la mayor parte de los parámetros del modelo, manteniendo el resto de los componentes en alta precisión para minimizar cualquier degradación en el desempeño.

La segunda pieza clave es un sistema denominado DFlash, una variante de decodificación especulativa diseñada para acelerar la generación de texto. En lugar de predecir cada token de forma secuencial, el sistema propone bloques completos de respuestas y luego verifica múltiples elementos simultáneamente, permitiendo confirmar varios tokens en una sola pasada de cálculo.

Finalmente, la compañía desarrolló un motor de inferencia propio llamado TileRT, encargado de mantener toda la carga de trabajo residente dentro de la GPU y reducir tiempos muertos asociados al lanzamiento de operaciones individuales.

Según Xiaomi, ninguna de estas técnicas por separado explica completamente el resultado. El incremento de velocidad surge de la combinación de todas ellas dentro de una estrategia de optimización conjunta entre modelo y sistema.

Más velocidad podría transformar nuevos casos de uso

Más allá del aspecto técnico, el anuncio tiene implicaciones potencialmente importantes para la industria.

La inferencia rápida es un requisito fundamental para aplicaciones donde la latencia resulta crítica. Sistemas de detección de fraude, plataformas de trading algorítmico, asistentes empresariales en tiempo real y arquitecturas de agentes autónomos suelen requerir respuestas en fracciones de segundo para operar eficientemente.

Con velocidades cercanas a los 60 o 70 tokens por segundo, muchos de estos escenarios permanecen limitados. Superar la barrera de los 1.000 tokens por segundo abre la posibilidad de ejecutar múltiples cadenas de razonamiento simultáneamente, evaluar distintas soluciones en paralelo o coordinar enjambres de agentes de IA sin que la velocidad se convierta en un cuello de botella.

La noticia también refuerza una tendencia cada vez más visible en el mercado: la competencia ya no gira únicamente alrededor de quién desarrolla el modelo más inteligente, sino también de quién logra ejecutarlo de forma más rápida y económica.

Xiaomi busca atraer desarrolladores empresariales

La compañía informó que UltraSpeed tendrá un costo aproximado tres veces superior al servicio estándar de MiMo-V2.5-Pro, aunque promete una capacidad de salida cercana a diez veces mayor.

Xiaomi abrirá un programa piloto entre el 9 y el 23 de junio, inicialmente orientado a desarrolladores profesionales y clientes empresariales. Paralelamente, la empresa liberó públicamente la versión FP4-DFlash del modelo a través de Hugging Face para facilitar pruebas independientes por parte de la comunidad.

Si los resultados reportados logran replicarse fuera de los laboratorios de Xiaomi, el avance podría alterar significativamente la economía de la inferencia de inteligencia artificial y aumentar la presión competitiva sobre empresas que han apostado por hardware especializado para resolver exactamente este problema.


Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín