Xiaomi presentó MiMo-V2.5-Pro-UltraSpeed junto a TileRT y aseguró haber superado por primera vez los 1.000 tokens por segundo en un modelo de 1 billón de parámetros. La compañía afirma que el salto no depende de hardware exótico, sino de una combinación de cuantización FP4, decodificación especulativa DFlash y un sistema de inferencia optimizado para GPUs comunes.
***
- Xiaomi dijo que MiMo-V2.5-Pro-UltraSpeed supera los 1.000 tokens por segundo en un modelo de 1T.
- El acceso será por solicitud y por tiempo limitado, del 9 al 23 de junio de 2026, con precio de API 3 veces mayor al de MiMo-V2.5-Pro.
- La arquitectura combina cuantización FP4, decodificación DFlash y el sistema TileRT para operar en un nodo estándar de 8 GPUs.
🚀 Xiaomi lanza MiMo-V2.5-Pro-UltraSpeed, rompiendo barreras con 1.000 tokens por segundo en un modelo de 1 billón de parámetros.
Este avance no requiere hardware exótico, utilizando técnicas de cuantización FP4 y decodificación DFlash.
La velocidad permitirá aplicaciones en… pic.twitter.com/aP3KrjFZSW
— Diario฿itcoin (@DiarioBitcoin) June 8, 2026
Xiaomi anunció el lanzamiento de MiMo-V2.5-Pro-UltraSpeed en colaboración con TileRT, una versión de su familia de modelos que, según la compañía, rompe la barrera de los 1.000 tokens por segundo en decodificación para un sistema de 1 billón de parámetros. La presentación coloca el foco en la velocidad como factor decisivo para que la inteligencia artificial deje de sentirse como una herramienta lenta y pase a operar como una extensión casi inmediata del pensamiento humano.
La propuesta no se limita a una mejora incremental. Xiaomi sostiene que cruzar el umbral de los 1.000 tokens por segundo cambia el tipo de aplicaciones que pueden construirse sobre un modelo de esta escala. En su planteamiento, la rapidez deja de ser solo una métrica técnica y pasa a convertirse en una condición para razonamiento paralelo, agentes de programación más productivos y decisiones en tiempo real en sectores sensibles.
El anuncio también llega con un componente comercial concreto. La API de MiMo-V2.5-Pro-UltraSpeed estará disponible por tiempo limitado y mediante solicitud previa. Xiaomi fijó un precio promocional equivalente a 3 veces el costo de MiMo-V2.5-Pro, aunque asegura que entrega cerca de 10 veces la velocidad de generación. La modalidad se limitará a la API, ya que el plan de tokens no estará soportado.
De acuerdo con la información publicada por Xiaomi, el acceso para usuarios aprobados se habilitará entre el 9 de junio y el 23 de junio de 2026 a las 23:59, hora de Pekín, equivalente a UTC+8 y a las 08:59 PDT. La empresa indicó que dará prioridad a compañías y desarrolladores profesionales con necesidades empresariales reales, y aclaró que enviar la solicitud no garantiza aprobación.
Para quienes sean aceptados en la prueba, también habrá una experiencia de chat gratuita durante esa ventana de dos semanas. Xiaomi señaló que cada cuenta podrá entrar a la cola hasta 10 veces por día, con sesiones de 30 minutos y liberación automática tras 5 minutos de inactividad. Ese límite refleja que la capacidad de inferencia de alta velocidad sigue siendo un recurso restringido, incluso en un despliegue experimental.
Por qué Xiaomi dice que 1.000 TPS cambian el paradigma
En la práctica, la velocidad que describe Xiaomi apunta a una vieja barrera de la IA generativa. Los modelos grandes suelen ofrecer mejor calidad, pero a costa de más latencia. Eso genera esperas incómodas para tareas como programación, razonamiento complejo o automatización en tiempo real. En este caso, la empresa afirma que un modelo de escala 1T puede comenzar a operar con ciclos de pensar y responder a nivel de milisegundos.
Según Xiaomi, ese salto permite ejecutar varios caminos de razonamiento dentro del mismo intervalo de tiempo real. La empresa menciona enfoques como Best-of-N y búsqueda en árbol, donde el sistema puede explorar múltiples rutas, verificar resultados y autocorregirse en segundo plano. Bajo esa lógica, la velocidad no solo acelera la respuesta, sino que ayuda a elevar la calidad del razonamiento al permitir más intentos en el mismo tiempo.
La compañía también destaca el potencial para agentes de programación. Uno de los problemas clásicos de la asistencia de código con IA es que el desarrollador termina esperando a que el modelo genere, depure o reescriba bloques completos. Xiaomi sostiene que, con 1.000 tokens por segundo, la generación de código y la eficiencia de producción reciben una aceleración de nivel estructural, reduciendo la fricción entre intención y ejecución.
Otro punto relevante del anuncio es la referencia a decisiones críticas en tiempo real. Xiaomi menciona escenarios como señales de trading cuantitativo de alta frecuencia, detección instantánea de fraude, licitación inteligente y diálogo interactivo inmediato. También extiende el argumento a asistencia quirúrgica y análisis de imágenes médicas en contextos de vida o muerte, donde cada segundo ahorrado en evaluación de lesiones o predicción de riesgo puede ampliar el margen de maniobra del personal médico.
Ese tipo de ejemplos sugiere una ambición más amplia que la de un simple producto para desarrolladores. Xiaomi intenta posicionar a MiMo-V2.5-Pro-UltraSpeed como una infraestructura para automatización extrema, un terreno donde la velocidad de inferencia puede incidir directamente en mercados financieros, seguridad y salud. Aun así, el desempeño real en producción dependerá de factores como estabilidad, costos operativos, calidad de salida y tolerancia a errores.
La apuesta técnica: FP4, DFlash y co-diseño con TileRT
Xiaomi atribuye el resultado a un co-diseño profundo entre el equipo del modelo MiMo y el sistema TileRT. La empresa subraya que otros enfoques de velocidad extrema en la industria se han apoyado en hardware especializado, como grandes integraciones de Cerebras o la arquitectura de SRAM personalizada de Groq. En contraste, asegura haber seguido una ruta distinta: obtener una velocidad de inferencia muy alta sobre GPUs comunes.
En la capa del modelo, Xiaomi aplicó cuantización FP4 enfocada en el cuello de botella de ancho de banda de hardware estándar. La idea es reducir con fuerza el tamaño del modelo y la presión sobre memoria. Sin embargo, la empresa reconoce que cuantizar de forma ingenua todo el sistema a FP4 puede degradar tareas de razonamiento complejo, lógica y generación de código.
Para evitar ese deterioro, la compañía explicó que cuantizó selectivamente solo los expertos de la arquitectura MoE de MiMo-V2.5-Pro, mientras mantuvo la precisión original en los demás módulos. Xiaomi añadió que usó FP4 QAT, o entrenamiento consciente de cuantización, con el objetivo de preservar la capacidad global del modelo en un nivel esencialmente equivalente al original.
La segunda pieza clave es DFlash, un método de decodificación especulativa basado en predicción paralela por bloques. En lugar de depender del esquema tradicional de un modelo pequeño que redacta tokens de forma autorregresiva y luego un modelo grande verifica, DFlash llena un bloque completo de posiciones enmascaradas en una sola pasada. Xiaomi indicó que adaptó este enfoque a su arquitectura MoE de escala billón y a escenarios de contexto largo.
Como parte de esa optimización, la empresa señaló que el modelo de borrador usa exclusivamente atención de ventana deslizante, o SWA, en línea con el diseño de la serie MiMo-V2. Esto reduce la dependencia del prefijo completo y lleva el costo por predicción desde un comportamiento lineal hacia uno constante respecto a la longitud de contexto. Xiaomi también dijo haber empleado el optimizador de segundo orden Muon y autodestilación para mantener tasas de aceptación altas con costos bajos.
Los resultados reportados por la empresa muestran una longitud promedio de aceptación de 6,30 en codificación, 5,56 en matemáticas y razonamiento, y 4,29 en agentes. En codificación, algunas muestras alcanzaron hasta 7,14, lo que implica que entre 6 y 7 de cada 8 tokens del borrador fueron aceptados por ronda de verificación. Xiaomi admitió, no obstante, que en conversaciones generales, donde la semántica diverge más y la incertidumbre sube, las tasas de aceptación todavía no son tan altas.
Qué aporta TileRT al rendimiento extremo
En el frente del sistema, TileRT se presenta como el motor que exprime la GPU hasta niveles de microsegundos. Xiaomi explicó que, cuando se intenta operar a 1.000 tokens por segundo, la vida útil de cada operador se comprime de tal forma que los límites entre operadores, los lanzamientos, la sincronización y los accesos a memoria se convierten en cuellos de botella visibles.
Para resolverlo, TileRT introduce un modelo de ejecución diferente. Uno de sus componentes es un núcleo persistente del motor que abandona el paradigma clásico de lanzar operador por operador y mantiene el pipeline de cómputo residente y fluyendo dentro de la GPU. Según la descripción técnica, esto permite superponer de manera extrema el movimiento de datos y la computación.
El segundo elemento es la especialización de warp, definida como una colaboración heterogénea de pipeline. Bajo este enfoque, la comunicación, el movimiento de datos y los cálculos tensores se reparten físicamente con una granularidad más fina. En vez de ejecutar pasos homogéneos de principio a fin, distintos grupos de hilos y dominios de ejecución trabajan de forma independiente pero coordinada.
Xiaomi y TileRT afirman que, a partir de esa convergencia entre software y física del hardware, lograron más de 1.000 tokens por segundo con un modelo de 1T usando solo un nodo estándar de 8 GPUs. Ese punto es central en el mensaje de la compañía porque sugiere una alternativa a las plataformas altamente especializadas. Si el dato se reproduce en producción, podría tener implicaciones importantes para costos y accesibilidad de sistemas de IA muy grandes.
Más allá del rendimiento, la compañía anunció que liberó el checkpoint MiMo-V2.5-Pro-FP4-DFlash en HuggingFace, con pesos cuantizados en FP4 y parámetros del modelo DFlash. Xiaomi invitó a la comunidad a usarlo y enviar retroalimentación. También adelantó que una versión UltraSpeed para MiMo-V2.5 está en camino, sin ofrecer todavía una fecha adicional de despliegue.
El anuncio original de Xiaomi presenta el avance como una muestra de co-diseño extremo entre modelo y sistema. Si bien la industria suele recibir con cautela cualquier cifra récord hasta verla replicada en entornos independientes, el movimiento confirma una tendencia clara: la carrera por modelos más capaces ahora también pasa por reducir drásticamente la latencia. En mercados donde una fracción de segundo puede traducirse en productividad, seguridad o dinero, esa competencia apenas empieza.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
IA
Google actualiza NotebookLM con Gemini 3.5 y creación de fuentes desde el chat
IA
Microsoft retira proyectos de GitHub tras hackeo que robó contraseñas de desarrolladores de IA
Bitcoin
Bitcoin rebota sobre USD $63.000 mientras Bernstein lo ve como diversificación ante mercado dominado por IA
IA