La IA local ya resuelve 88,7% de consultas y amenaza el dominio absoluto de la nube

𝕏

Hace 7 minutos

Por Canuto

Un equipo de Stanford y Together AI propone una nueva forma de medir la eficiencia real de la inteligencia artificial: cuánta capacidad útil entrega por cada watt consumido. Su análisis de más de 1 millón de consultas sugiere que la IA local ya puede atender gran parte del trabajo que hoy se concentra en la nube, con implicaciones directas para costos, energía e infraestructura.
***

El estudio concluye que los modelos locales pueden resolver 88,7% de consultas de chat y razonamiento de una sola interacción.
La métrica “intelligence per watt” mejoró 5,3 veces entre 2023 y 2025, impulsada por avances en modelos y hardware.
Un sistema híbrido entre IA local y nube podría reducir entre 60% y 80% el consumo energético, el cómputo y el costo total.

🚨 La IA local resuelve el 88,7% de las consultas y desafía la supremacía de la nube.

Un estudio de Stanford revela que la eficiencia de la IA se mide por “intelligence per watt”.

Entre 2023 y 2025, la eficiencia aumentó 5,3 veces.

Un sistema híbrido puede reducir el consumo… pic.twitter.com/Z5mMpYq2NV

— Diario฿itcoin (@DiarioBitcoin) July 1, 2026

La inteligencia artificial generativa ha dependido hasta ahora de una arquitectura muy clara: modelos gigantes, centros de datos masivos y un flujo constante de consultas que viajan a la nube. Ese esquema permitió el auge de los asistentes conversacionales, pero también ha disparado el consumo energético y la presión sobre la infraestructura disponible.

Un nuevo trabajo académico plantea que esa lógica podría empezar a cambiar. Según Intelligence per Watt: Measuring Intelligence Efficiency of Local AI, de Jon Saad-Falcon, Avanika Narayan, Hakki Orhun Akengin, J. Wes Griffin, Herumb Shandilya, Adrian Gamarra Lafuente, Medhya Goel, Rebecca Joseph, Shlok Natarajan, Etash Kumar Guha, Shang Zhu, Ben Athiwaratkun, John Hennessy, Azalia Mirhoseini y Christopher Ré, los modelos locales ya son capaces de absorber una porción relevante de ese tráfico.

La tesis central del estudio es simple, pero potente. Ya no basta con medir qué tan bueno es un modelo, sino cuánta inteligencia útil entrega por cada unidad de energía que consume.

Para eso, los autores introducen la métrica “intelligence per watt” o IPW. En términos prácticos, combina precisión y consumo eléctrico para evaluar si una inferencia local en laptops, estaciones de trabajo o incluso teléfonos puede ser realmente viable fuera del centro de datos.

El resultado más llamativo del análisis es que los modelos locales, definidos como aquellos con hasta 20.000 millones de parámetros activos por consulta, lograron responder correctamente 88,7% de las consultas de chat y razonamiento de una sola interacción evaluadas. La cifra no implica que la nube desaparezca, pero sí que una redistribución parcial del trabajo ya parece técnicamente posible.

Qué midió exactamente el estudio y por qué importa

La investigación evaluó más de 20 modelos locales de última generación, 8 aceleradores de hardware y un universo de más de 1 millón de consultas. La muestra incluyó tráfico conversacional real, tareas de razonamiento y pruebas estandarizadas de conocimiento y razonamiento experto.

Entre los conjuntos de datos utilizados figuraron 500.000 consultas de WildChat, 500.000 de NaturalReasoning, 12.000 de MMLU Pro y 26.500 de SuperGPQA. Ese diseño buscó equilibrar escenarios cotidianos de uso con benchmarks más controlados y exigentes.

En hardware, el estudio comparó plataformas de Apple, NVIDIA, AMD y SambaNova. En la lista aparecen aceleradores locales y de nube como Apple M4 Max, NVIDIA Quadro RTX 6000, RTX 6000 Ada, A100, H200, GH200, B200, AMD MI300X y SambaNova SN40L.

Del lado de los modelos, la evaluación incluyó familias como Qwen3, GPT-OSS, Gemma3 e IBM Granite 4.0. También usó modelos de referencia de gran escala en la nube, como Claude Sonnet 4.5, Gemini 2.5 Pro y GPT-5.

La relevancia del trabajo está en que no se quedó solo con métricas clásicas como latencia o precisión. También midió energía consumida, potencia promedio, tiempo hasta el primer token, memoria, costo y rendimiento por consulta, con un sistema de perfilado diseñado para comparar plataformas muy distintas bajo una base común.

Para el lector menos técnico, el mensaje es importante porque toca el corazón económico de la IA. Si una consulta puede resolverse localmente con buen nivel de calidad, menor costo y menor gasto energético, entonces parte del negocio que hoy monopoliza la nube podría desplazarse hacia el borde de la red, el escritorio o el bolsillo del usuario.

Los hallazgos clave: más cobertura local y una mejora acelerada en eficiencia

El primer hallazgo fuerte del trabajo es la cobertura actual. Los autores concluyen que 88,7% de las consultas de chat y razonamiento de una sola interacción pueden ser atendidas localmente si se enrutan hacia el modelo pequeño más apropiado.

Esa cifra surge de usar diversidad de modelos, no un solo sistema. De hecho, el estudio muestra que elegir el mejor modelo local para cada consulta mejora de forma sustancial la cobertura frente a usar un único modelo de propósito general.

El segundo hallazgo es temporal. Entre 2023 y 2025, la eficiencia medida en inteligencia por watt mejoró 5,3 veces.

La secuencia reportada fue de 23,2% de tasa de éxito en 2023, 48,7% en 2024 y 71,3% en 2025 para los mejores modelos locales de cada año, emparejados con el mejor acelerador disponible. En IPW, eso se tradujo en un salto desde 7,92 x 10⁻⁴ hasta 4,18 x 10⁻³.

Según los autores, ese avance fue impulsado por dos frentes al mismo tiempo. Por un lado, los modelos mejoraron 3,1 veces en capacidad efectiva; por otro, el hardware aportó una mejora de 1,7 veces en eficiencia por watt.

Cuando la comparación se hace por joule, que incluye también el factor latencia, el salto luce todavía más fuerte. Allí la mejora total llegó a 18 veces, con una contribución de 3,1 veces por modelos y 5,9 veces por hardware.

El tercer hallazgo apunta a la arquitectura ideal. Un esquema híbrido que combine inferencia local y nube podría reducir entre 60% y 80% la energía, el cómputo y el costo frente a una estrategia que envíe todo a un gran modelo alojado en la nube.

La nube sigue siendo más eficiente por consulta, pero no necesariamente en el sistema completo

El estudio no concluye que el hardware local ya supere al de centros de datos. De hecho, encuentra lo contrario en la comparación directa de un mismo modelo ejecutado sobre distintos aceleradores.

Según los resultados, los aceleradores de nube mantienen una ventaja de al menos 1,4 veces en inteligencia por watt sobre aceleradores locales ejecutando modelos idénticos. En inteligencia por joule, la diferencia puede ampliarse a un rango de 1,6 a 7,4 veces.

Por ejemplo, para modelos Qwen3, el NVIDIA B200 logró entre 1,39 y 1,40 veces más IPW que el Apple M4 Max. En el caso del SambaNova SN40L, la brecha fue aún mayor en ciertos modelos grandes.

La explicación, según los autores, está en la especialización del hardware empresarial. Memoria HBM3e, unidades tensoriales dedicadas y jerarquías de memoria optimizadas permiten más rendimiento por unidad de energía y, además, tiempos de respuesta más rápidos.

Los dispositivos locales, en cambio, operan bajo restricciones térmicas y de consumo más duras. Sus arquitecturas de memoria unificada están diseñadas para balancear múltiples tareas, no solo inferencia de modelos grandes.

Sin embargo, esa inferioridad por consulta no anula el valor de la IA local. Lo que cambia el balance general es que, si una gran parte de las consultas nunca necesita llegar a la nube, el sistema completo puede terminar consumiendo bastante menos energía y capital, aun si cada dispositivo local es menos eficiente que un acelerador de data center.

Qué tipos de consultas favorecen a la IA local

El estudio muestra que no todas las cargas de trabajo son iguales. Las consultas de chat son mucho más favorables para los modelos locales que las tareas de razonamiento técnico exigente.

En WildChat, el mejor modelo local alcanzó 88,9% de cobertura. En NaturalReasoning, la cifra bajó a 64,9%, una brecha de 24 puntos porcentuales.

Los autores interpretan esto a la luz del uso real de asistentes de IA. Muchas consultas cotidianas se concentran en orientación práctica, búsqueda de información, escritura y tareas conversacionales, dominios donde los modelos compactos ya compiten bien.

El panorama cambia cuando aparecen problemas especializados de ingeniería, ciencias físicas o razonamiento complejo. En esas áreas, la nube todavía retiene una ventaja clara y sigue siendo necesaria para una porción crítica del trabajo.

Aun así, la cobertura local en benchmarks exigentes siguió siendo relevante. En MMLU Pro, el mejor conjunto local logró 93,4%, mientras que en SuperGPQA alcanzó 83,6%.

La solvencia varió además por dominio económico. Las áreas creativas y de humanidades superaron 93% de cobertura, mientras que disciplinas técnicas como arquitectura e ingeniería cayeron cerca de 60%, una diferencia que ayuda a imaginar dónde podría despegar antes la IA local y dónde no.

El papel del ruteo y los ahorros potenciales a escala

Uno de los apartados más prácticos del estudio simuló un sistema híbrido atendiendo 80,2 millones de consultas en 24 horas. El escenario enruta peticiones entre cuatro modelos pequeños en Apple M4 Max y un modelo de frontera Qwen3-235B alojado sobre NVIDIA H200.

Con un ruteo perfecto, el sistema redujo 80,4% de la energía, 77,3% del cómputo y 73,8% del costo frente a enviar todas las consultas al modelo grande en la nube. Ese caso “oracle” es teórico, pero sirve como techo de referencia.

Lo más interesante es que el trabajo también evaluó routers imperfectos. Un enrutador con 80% de precisión, que los autores consideran un objetivo realista, capturó cerca de 80% de los beneficios del caso ideal.

En concreto, ese router logró recortes de 64,3% en energía, 61,8% en cómputo y 59,0% en costo. Incluso un router con solo 60% de precisión produjo ahorros de 48,4%, 46,7% y 44,5%, respectivamente.

La calidad final se mantiene porque las consultas mal enrutadas pueden escalarse de vuelta a la nube. Eso significa que el riesgo principal del router no es necesariamente degradar todas las respuestas, sino desperdiciar parte del ahorro potencial.

Para empresas, desarrolladores y operadores de infraestructura, el mensaje es directo. La clave no parece ser reemplazar la nube, sino reservarla para los casos donde realmente agrega valor y descargar el resto a dispositivos o equipos locales más modestos.

Implicaciones para la industria de IA y el ecosistema tecnológico

El trabajo también sugiere que la expansión de memoria en hardware local está cambiando las reglas. Entre 2012 y 2025, la capacidad de memoria en aceleradores de consumo creció cerca de 126 veces, según el propio estudio.

Esa mejora permitió que modelos con entre 8.000 millones y 20.000 millones de parámetros activos entren en equipos personales modernos. En otras palabras, el obstáculo físico que antes obligaba a depender de la nube empieza a ceder.

Los autores subrayan tres conclusiones prácticas. Primero, las arquitecturas MoE parecen ofrecer la mejor inteligencia por watt en dispositivos locales con suficiente memoria.

Segundo, la cuantización agresiva hasta FP4 puede ser más conveniente que ejecutar modelos más pequeños en mayor precisión. El estudio estima reducciones de energía de 3 a 3,5 veces por escalón de precisión, con una pérdida aproximada de 2,5 puntos porcentuales por paso.

Tercero, más allá de cierto umbral, mejorar el router rinde menos que ampliar el conjunto de modelos locales disponibles. Según el análisis, después de cerca de 80% de precisión de ruteo, el valor adicional se vuelve decreciente.

Para un público cercano a cripto, blockchain e infraestructura descentralizada, estas conclusiones resultan especialmente sugerentes. Menor dependencia de hyperscalers, más cómputo distribuido y procesamiento en el borde son conceptos que resuenan con debates ya conocidos en redes descentralizadas, DePIN y soberanía tecnológica.

Eso no significa que la IA local sea automáticamente descentralizada ni que sustituya centros de datos de forma inminente. Pero sí apunta a una redistribución del poder computacional que podría tener efectos en costos, privacidad, acceso y concentración de mercado.

Limitaciones, cautelas y lo que falta por resolver

El propio estudio reconoce varios límites. Las mediciones energéticas dependen de telemetría por software, como NVML, powermetrics y ROCm SMI, lo que puede introducir márgenes de error de entre 10% y 15%.

Además, el núcleo del análisis se enfoca en consultas de una sola interacción. Aunque los autores añadieron pruebas complementarias en cargas multi-turno y agentic, admiten que todavía falta una caracterización más amplia en flujos largos, con herramientas y multimodalidad.

También hay cautelas metodológicas en la evaluación de respuestas abiertas. Para ciertas tareas conversacionales se usó un sistema de “LLM-as-a-judge”, que hereda sesgos y posibles errores del modelo evaluador.

Otra advertencia es de orden económico y social. Mayor eficiencia por consulta no garantiza menor consumo agregado si el uso total se dispara, una preocupación clásica asociada al efecto rebote o paradoja de Jevons.

Finalmente, los resultados corresponden al estado del arte disponible hasta octubre de 2025. En un ecosistema que cambia con rapidez, tanto el ritmo de mejora de modelos como el precio de memorias y aceleradores pueden alterar de forma importante el panorama.

Aun con esas reservas, el estudio deja una señal difícil de ignorar. La pregunta ya no es si toda la IA debe vivir en la nube, sino qué parte realmente necesita seguir allí.

Si la inteligencia útil puede medirse en watts, entonces el próximo gran campo de batalla de la IA no será solo quién tiene el modelo más poderoso. También será quién logra entregar suficiente capacidad, al menor costo energético posible y en el lugar correcto de la red.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	0,05%	$70,03 mmd
BTC	Bitcoin	2,99%	$36,1 mmd
USDC	USDC	0,01%	$12,07 mmd
ETH	Ethereum	3,61%	$10,73 mmd
SOL	Solana	6,57%	$3,54 mmd
XRP	XRP	2,57%	$1,62 mmd
BNB	BNB	1,35%	$1,3 mmd
USD1	World Liberty Financial USD	0,03%	$1,05 mmd
DOGE	Dogecoin	3,7%	$0,646 778 mmd
TRX	TRON	0,71%	$0,576 848 mmd

M	MemeCore	97,59%	$1,3
VVV	Venice Token	15,85%	$14,55
JUP	Jupiter	14,72%	$0,236 716
MORPHO	Morpho	12,52%	$2,12
XLM	Stellar	10,63%	$0,199 663
SPX	SPX6900	8,41%	$0,361 601
ADA	Cardano	8,03%	$0,155 31
BCH	Bitcoin Cash	7,65%	$214,41
VIRTUAL	Virtuals Protocol	7,43%	$0,560 573
SOL	Solana	6,57%	$77,55

STABLE	Stable	-11,79%	$0,034 052
VELVET	Velvet	-10,64%	$1,45
LIT	Lighter	-9,37%	$1,76
PYTH	Pyth Network	-3,59%	$0,039 352
WLD	Worldcoin	-2,83%	$0,394 496
SKY	Sky	-1,88%	$0,052 711
DEXE	DeXe	-1,79%	$22,71
币安人生	币安人生	-1,01%	$0,678 136
SEI	Sei	-0,26%	$0,047 774
EURC	EURC	-0,17%	$1,13

La IA local ya resuelve 88,7% de consultas y amenaza el dominio absoluto de la nube

Qué midió exactamente el estudio y por qué importa

Los hallazgos clave: más cobertura local y una mejora acelerada en eficiencia

La nube sigue siendo más eficiente por consulta, pero no necesariamente en el sistema completo

Qué tipos de consultas favorecen a la IA local

El papel del ruteo y los ahorros potenciales a escala

Implicaciones para la industria de IA y el ecosistema tecnológico

Limitaciones, cautelas y lo que falta por resolver

Suscríbete a nuestro boletín

Artículos Relacionados

Yuval Noah Harari advierte que la IA ya está hackeando el código de la civilización humana

Greg Brockman explica por qué OpenAI ve la AGI como la tecnología más transformadora de la historia

IA, criptomonedas y centros de datos: así arranca el 1 de julio de 2026

Conception anuncia los primeros óvulos humanos tempranos creados desde células madre