Por Canuto  

Xiaomi anunció una reducción permanente en los precios de la API de su serie MiMo-V2.5, con recortes de hasta 99% frente a las tarifas anteriores. La compañía también unificó los precios para todas las longitudes de contexto y mejoró sus planes de tokens, mientras una vocera técnica atribuyó el ajuste a avances en optimización jerárquica de caché KV para SWA dentro del marco de inferencia.
***

  • Xiaomi informó que la API de MiMo-V2.5 ahora cuesta hasta 99% menos que antes.
  • La empresa unificó el precio en todas las longitudes de contexto y mejoró los planes de tokens.
  • Según Fuli Luo, la mayor rebaja se aplicó al Input (Cache Hit) gracias a una optimización jerárquica de caché KV para SWA.


Xiaomi anunció una rebaja permanente en los precios de la API de su serie MiMo-V2.5, en un movimiento que apunta a mejorar la eficiencia de inferencia, reducir costos y ampliar el acceso para más usuarios y desarrolladores. De acuerdo con la comunicación difundida por @XiaomiMiMo, el recorte llega a ser de hasta 99% frente a los precios anteriores.

La actualización no se limitó a una baja general de tarifas. Xiaomi también indicó que los precios ahora quedaron unificados para todas las longitudes de contexto, una decisión que puede simplificar el uso comercial y técnico de estos modelos. Además, la empresa señaló que los planes de tokens de MiMo fueron mejorados para ofrecer entre 5 y 8 veces más tokens utilizables.

El anuncio se produce en un momento en el que los proveedores de inteligencia artificial compiten no solo por el rendimiento de sus modelos, sino también por el costo total de uso. En ese escenario, los precios de inferencia y las mejoras de eficiencia operativa se han vuelto variables críticas para captar clientes empresariales, desarrolladores independientes y plataformas que dependen de APIs para escalar productos basados en IA.

En términos generales, la inferencia es el proceso mediante el cual un modelo ya entrenado responde solicitudes o genera resultados. A diferencia del entrenamiento, que suele ser muy costoso y esporádico, la inferencia ocurre de forma continua en producción. Por eso, pequeños avances técnicos en esta capa pueden traducirse en rebajas importantes para los usuarios finales.

Qué cambió en MiMo-V2.5

Según Xiaomi, la reducción de precios para MiMo-V2.5 será permanente. La empresa presentó la medida como parte de un esfuerzo por ofrecer mejor eficiencia de inferencia, menores costos y un acceso más amplio. Aunque el mensaje principal fue comercial, el ajuste sugiere que la compañía cree haber alcanzado mejoras operativas suficientes para sostener tarifas mucho más bajas sin tratarse de una promoción temporal.

Otro punto destacado fue la unificación de precios en todas las longitudes de contexto. En los modelos de lenguaje, la longitud de contexto define cuánta información puede procesar el sistema dentro de una misma solicitud. Cuando las tarifas cambian según ese parámetro, los costos pueden ser más difíciles de predecir. Un precio unificado reduce esa fricción y puede facilitar la planificación de uso.

Xiaomi también comunicó una mejora en los planes de tokens de MiMo. La empresa afirmó que ahora los usuarios podrán disponer de entre 5 y 8 veces más tokens utilizables. Sin detalles adicionales sobre los planes específicos o el punto de comparación exacto dentro de cada modalidad, el dato apunta a una expansión importante en la cantidad de uso disponible bajo las nuevas condiciones comerciales.

El lenguaje del anuncio deja ver una estrategia dual. Por un lado, busca fortalecer la competitividad del producto frente a otras APIs de IA. Por otro, intenta presentar a MiMo-V2.5 como una alternativa más accesible para casos de uso de alto volumen, donde el consumo de tokens y el costo por consulta suelen definir si una integración es viable o no.

La explicación técnica detrás del recorte

Parte de la lógica detrás de la reducción fue explicada por @_LuoFuli, quien abordó específicamente el origen del ajuste. Según detalló, el recorte de precio más profundo, de hasta 99%, corresponde a Input (Cache Hit). Esa precisión es importante porque sugiere que la rebaja más agresiva no necesariamente se aplica de forma homogénea a todas las operaciones, sino a una categoría donde la mejora técnica fue más marcada.

Fuli Luo indicó que la razón principal es que el marco de inferencia de la compañía ahora admite optimización jerárquica de caché KV para SWA. En términos simples, la caché KV permite reutilizar parte de los cálculos ya realizados en interacciones previas o repetidas, lo que reduce tiempo de procesamiento y demanda computacional. Si esa reutilización se vuelve más eficiente, el costo de servir ciertas solicitudes también puede caer de forma notable.

La referencia a una optimización jerárquica sugiere que el sistema gestiona esa memoria en múltiples niveles o capas, con el objetivo de mejorar el rendimiento según el tipo de acceso y la frecuencia de reutilización. Xiaomi no publicó en estos mensajes una explicación más extensa sobre la arquitectura, pero sí dejó claro que el ahorro está vinculado a cambios internos del motor de inferencia y no solo a una decisión comercial desconectada de la operación técnica.

La misma vocera añadió que las pruebas del motor de inferencia en producción muestran que esta optimización incrementa los tokens en caché. Aunque el mensaje compartido no incluye una cifra concreta sobre cuánto crecieron esos tokens almacenados o reutilizados, la afirmación refuerza la idea de que el sistema logra aprovechar mejor el trabajo ya realizado, una ventaja que puede ser decisiva cuando se atienden grandes volúmenes de consultas repetitivas o parcialmente similares.

Por qué esto importa para el mercado de IA

Las reducciones de precio en APIs de modelos avanzados suelen tener efectos más amplios que una simple mejora para clientes actuales. Cuando una empresa baja de forma agresiva sus tarifas, presiona al resto del mercado a responder con eficiencias similares, nuevos planes o ajustes en su estructura de costos. Esa dinámica ha sido visible en distintos segmentos de la IA generativa durante los últimos años.

En este caso, la promesa de hasta 99% menos en ciertos componentes del servicio puede ser especialmente relevante para equipos que dependen de caché y consultas recurrentes. Para muchos productos, el costo no proviene solo del volumen bruto de uso, sino de cómo se cobra cada tipo de interacción. Si una parte importante de ese tráfico entra en la categoría Input (Cache Hit), la reducción puede ser material para el presupuesto mensual.

La unificación de precios según longitud de contexto también puede resultar atractiva para empresas que trabajan con flujos variables. En aplicaciones reales, el tamaño del contexto cambia según la tarea, el usuario y la complejidad de la consulta. Un esquema más uniforme reduce la incertidumbre y puede facilitar el diseño de productos, la estimación de márgenes y la definición de tarifas para clientes finales.

Además, el aumento de 5 a 8 veces en los tokens utilizables apunta a una oferta más flexible. En entornos donde el consumo de tokens se monitorea con detalle, esa mejora puede significar más pruebas, más iteraciones y mayor adopción interna. Si el rendimiento del modelo se mantiene, la combinación de menor precio y mayor capacidad utilizable podría elevar el atractivo de MiMo-V2.5 dentro del ecosistema de IA aplicada.

Por ahora, el anuncio conocido se limita a estos elementos: rebaja permanente de precios, unificación tarifaria por longitud de contexto, expansión de los planes de tokens y una explicación técnica centrada en la optimización jerárquica de caché KV para SWA. Xiaomi no detalló en los mensajes revisados nuevas tablas completas de precios ni comparativas exhaustivas por modalidad.

Aun así, el mensaje central es claro. La compañía busca posicionar a MiMo-V2.5 como una opción más eficiente y más económica para inferencia, apoyándose tanto en cambios de ingeniería como en una propuesta comercial más agresiva. En un mercado donde el acceso y el costo suelen ser tan importantes como la calidad del modelo, esa combinación puede tener peso real entre desarrolladores y empresas.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín