HIGGS y la nueva cuantización podrían llevar la IA de ChatGPT directo a tu celular

𝕏

Sábado, 19 de Abril, 2025

Por Canuto

¿Te imaginas usar una inteligencia artificial del nivel de ChatGPT directamente en tu celular, sin conexión a la nube ni consumo excesivo de batería? Ese futuro está mucho más cerca gracias a HIGGS, una nueva técnica de cuantización que permite comprimir modelos de lenguaje enormes sin necesidad de datos ni pérdida de calidad. Desarrollada por investigadores de instituciones como el MIT y KAUST, esta innovación promete llevar la potencia de la IA a cualquier dispositivo, desde laptops ultra ligeras hasta teléfonos inteligentes. Es el primer paso real hacia una inteligencia artificial verdaderamente portátil.
***

Un nuevo marco teórico conecta matemáticamente el error por capa con el desempeño global del modelo
El método HIGGS permite cuantizar modelos sin datos de calibración, superando a técnicas como GPTQ y AWQ
Resultados muestran ventajas en precisión, velocidad y soporte para inferencia eficiente en GPU

En un avance que podría redefinir el desarrollo y despliegue de modelos de lenguaje a gran escala (LLMs), un grupo internacional de investigadores ha demostrado que es posible cuantizar estos modelos de forma más eficiente, e incluso más precis, sin recurrir a datos de calibración.

El hallazgo se basa en un nuevo marco teórico denominado “teorema de la linealidad”, que establece una relación directa y mensurable entre el error inducido por la cuantización en cada capa del modelo y la degradación de su rendimiento global, medido comúnmente mediante la perplejidad.

El trabajo, titulado “Pushing the Limits of Large Language Model Quantization via the Linearity Theorem”, ha sido liderado por académicos de Yandex, el MIT, la Universidad KAUST y el Instituto de Ciencia y Tecnología de Austria (ISTA), y propone una alternativa sólida a enfoques populares como GPTQ o AWQ, los cuales dependen fuertemente de datos de calibración para ajustar los pesos de los modelos durante la compresión.

El problema de la cuantización en los LLMs

Los modelos de lenguaje actuales, como Llama 3, GPT o Claude, contienen cientos de millones o incluso billones de parámetros.

Al entrenarse con precisión FP16 o FP32, su implementación requiere grandes cantidades de memoria y potencia de cómputo.

Para poder desplegarlos en dispositivos más accesibles o acelerar su inferencia en servidores, se utilizan técnicas de cuantización: procesos que reducen la representación numérica de los pesos (por ejemplo, de 16 a 4 bits) para ahorrar recursos sin comprometer excesivamente la precisión del modelo.

Sin embargo, el desafío técnico es enorme. La cuantización introduce error, y si se realiza de manera inadecuada, puede degradar significativamente la calidad de los resultados del modelo.

Por ello, durante años, los investigadores han confiado en métodos basados en calibración, es decir, que requieren un conjunto de datos específico para ajustar finamente los pesos post-entrenamiento. Aunque efectivos, estos métodos añaden complejidad, dependencia de datos, y a menudo, tiempos de procesamiento elevados.

Teorema de la linealidad: un nuevo marco teórico

El núcleo del nuevo enfoque propuesto por Malinovskii, Panferov, Guo y colegas es una formulación matemática que cuantifica con precisión cómo el error cuadrático medio (MSE) introducido al cuantizar una capa afecta el rendimiento global del modelo, expresado como incremento en la perplejidad (una métrica estándar en modelos de lenguaje).

El teorema afirma que, para bitwidths razonables (entre 3 y 8 bits), existe una relación lineal entre el error inducido en una capa y la pérdida total de precisión del modelo.

Este hallazgo permite optimizar la cuantización minimizando directamente el MSE de cada capa, sin necesidad de observar el comportamiento del modelo sobre un conjunto de datos específico.

“El hallazgo es contraintuitivo: basta con reducir el error MSE de cada capa, y con eso se controla la perplejidad final. No se necesitan datos, ni ajustes específicos por modelo o tarea”, afirman los autores.

HIGGS: cuantización sin datos, más precisa y eficiente

Sobre esta base teórica, los investigadores desarrollaron un nuevo método llamado HIGGS (Hadamard Incoherence with Gaussian MSE-optimal GridS). El procedimiento aplica una Transformación de Hadamard a los pesos del modelo, lo cual “descorrelaciona” su distribución y la aproxima a una gaussiana estándar.

Luego, los pesos se cuantizan usando cuadrículas óptimas en términos de MSE, previamente calculadas mediante algoritmos de cuantización vectorial.

Una transformación de Hadamard es una operación matemática que reorganiza los datos de un modelo (como los pesos de una red neuronal) para hacerlos más “desordenados” o “incoherentes”. Esto significa que sus valores se vuelven menos correlacionados entre sí, lo que facilita su compresión sin perder demasiada información.

En el contexto de la cuantización, aplicar una transformación de Hadamard ayuda a que los pesos del modelo se comporten como si siguieran una distribución gaussiana (normal), lo cual es ideal para usar cuadrículas de cuantización más eficientes. Lo más interesante es que esta operación es muy rápida y no requiere datos de entrada, lo que la hace perfecta para cuantización sin calibración.

Este proceso, notablemente, es completamente libre de datos. No requiere ni una sola muestra de entrada para funcionar, lo que lo convierte en una herramienta ideal para entornos donde los datos de calibración son costosos, privados o inexistentes.

Los experimentos con modelos Llama 3.1 y Qwen muestran que HIGGS supera sistemáticamente a los métodos existentes en el rango de 3 a 4 bits, tanto en precisión (medida en perplejidad y exactitud en tareas zero-shot y few-shot) como en eficiencia de implementación.

Inferencia más rápida: integración con FLUTE

HIGGS no solo ofrece mejoras teóricas, también tiene ventajas prácticas considerables.

Su diseño permite integrarse con FLUTE, un kernel optimizado para inferencia en GPU que fusiona la dequantización y la multiplicación de matrices. Esto se traduce en una ejecución mucho más rápida en entornos reales, como servidores de inferencia.

FLUTE (Fast Look-Up Table Execution) es un tipo de kernel optimizado para ejecutar modelos de inteligencia artificial cuantizados en GPUs de forma extremadamente eficiente.

Su principal ventaja es que fusiona dos pasos clave —la decuantización (convertir los valores comprimidos a su forma utilizable) y la multiplicación de matrices— en una sola operación altamente optimizada.

Esto reduce el tiempo de inferencia y el consumo de memoria, especialmente en escenarios de baja latencia como aplicaciones móviles o respuestas en tiempo real.

En el caso del método HIGGS, FLUTE permite ejecutar modelos cuantizados con cuadrículas avanzadas sin necesidad de rediseñar el hardware ni sacrificar precisión.

Pruebas sobre una GPU RTX 4090 muestran que HIGGS alcanza hasta 3 veces más tokens por segundo en comparación con FP16, mientras mantiene niveles similares o incluso mejores de precisión.

Además, puede configurarse dinámicamente para asignar diferentes bitwidths a cada capa según su sensibilidad, usando una estrategia optimizada mediante programación lineal basada en el mismo teorema de la linealidad.

¿Cuánto mejor es HIGGS?

Los resultados son contundentes. En pruebas sobre el modelo Llama 3.1 8B, el método HIGGS logró:

Una perplejidad de 5.91 con 4 bits, mejor que GPTQ (6.23) y AWQ (6.22).
Mejor puntuación promedio en tareas como ARC, WinoGrande, HellaSwag y MMLU.
Precisión comparable o superior a los métodos calibrados, incluso en configuraciones completamente libres de datos.

Incluso en configuraciones mixtas donde se combina HIGGS con GPTQ, se observan mejoras adicionales, lo que sugiere que el método puede integrarse a pipelines existentes para obtener lo mejor de ambos mundos.

Implicaciones para el ecosistema de IA

El impacto de este avance podría ser amplio. Al eliminar la necesidad de calibración, HIGGS simplifica el proceso de cuantización, acelera la adopción de modelos y democratiza el acceso a IA de alto rendimiento, especialmente en escenarios donde los datos de calibración no están disponibles.

También abre la puerta a nuevas formas de cuantización adaptativa, en las que los recursos computacionales pueden ajustarse dinámicamente según las necesidades del modelo o del entorno, sin penalizaciones severas en la calidad de la inferencia.

Ejemplo de como funciona HIGGS

Imaginemos una capa de un modelo de lenguaje con solo una matriz de pesos de 4 × 4, entrenada en alta precisión (FP32 = Floating Precision 32 bits).

Esta matriz representa los pesos de una capa lineal simple.


# Pesos originales de la capa (FP32)
W = [
      [0.8, -0.5, 1.2, 0.3],
      [1.0,  0.1, -0.6, -1.1],
      [-0.4, 1.5, 0.9, -0.2],
      [0.7, -1.0, 0.0, 0.6]
]

Paso 1: Agrupar los pesos en vectores

Dividimos la matriz en vectores de tamaño 4 (grupo completo, ya que tenemos 4 columnas)


# Vectores por fila
w1 = [0.8, -0.5, 1.2, 0.3]
w2 = [1.0,  0.1, -0.6, -1.1]
w3 = [-0.4, 1.5, 0.9, -0.2]
w4 = [0.7, -1.0, 0.0, 0.6]

Paso 2: Normalizar cada vector

Normalizamos cada vector dividiéndolo por su norma (magnitud):


# Por ejemplo, norma de w1 ≈ sqrt(0.8² + (-0.5)² + 1.2² + 0.3²) ≈ 1.59
norm_w1 ≈ 1.59
normalized_w1 = [0.503, -0.314, 0.754, 0.188]

Paso 3: Aplicar la transformación de Hadamard

La matriz de Hadamard de orden 4 es:


H = [
        [1,  1,  1,  1],
        [1, -1,  1, -1],
        [1,  1, -1, -1],
        [1, -1, -1,  1]
]

Multiplicamos cada vector normalizado por esta matriz. Por ejemplo, para normalized_w1:


# H * normalized_w1 ≈ vector transformado (Hadamard)
w1_hadamard = matmul(H, normalized_w1)

Este vector ahora tiene una distribución cercana a la gaussiana, ideal para cuantización MSE-óptima.

Paso 4: Cuantización con cuadrículas gaussianas óptimas

En vez de usar una escala uniforme (como en métodos tradicionales), utilizamos una cuadrícula precomputada optimizada para minimizar el error MSE en distribuciones gaussianas.

Supongamos que elegimos una cuadrícula de 16 valores (4 bits). Redondeamos cada componente de w1_hadamard al valor más cercano en esta cuadrícula.


# Cuantizamos usando grid de 16 puntos óptimos
quantized_w1 = round_to_nearest(w1_hadamard, grid=G_16)

Esto se repite para cada vector (w2, w3, w4), generando una versión cuantizada Hadamard-transformada de la matriz original.

Paso 5: Almacenar la escala y los índices

Como en HIGGS, almacenamos:

La escala original de cada vector (para desnormalizar en inferencia)
Los índices cuantizados (no los valores reales, lo que ahorra espacio)

Descuantización en inferencia

Durante la inferencia, para recuperar los pesos aproximados:

Recuperamos los índices y los convertimos de nuevo a valores reales desde la cuadrícula.
Aplicamos la transformada de Hadamard inversa.
Multiplicamos por la escala original del vector.

¿Qué logramos?

Se evitó el uso de datos para calibrar el modelo.
El error global se puede predecir gracias al teorema de la linealidad.
El modelo ahora puede ejecutarse en dispositivos con menor capacidad, como teléfonos, sin perder mucha precisión.

Limitaciones y futuro

Los autores reconocen que aún quedan desafíos por resolver. Por ejemplo, el uso obligatorio de transformadas de Hadamard añade una ligera complejidad computacional, aunque esta puede mitigarse con técnicas de “folding” en la arquitectura del modelo.

Además, aún no se ha evaluado exhaustivamente en arquitecturas como Mixture-of-Experts o en tareas generativas extensas.

Sin embargo, el teorema de la linealidad ofrece una base firme para seguir explorando técnicas de compresión, no solo para LLMs, sino también para otros modelos de aprendizaje profundo donde la eficiencia y el rendimiento deben equilibrarse cuidadosamente.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

La entrada de Intel en la carrera de chips de IA: Un análisis

Sam Altman admite que la industria de la IA está en una burbuja

Estados Unidos

Trump discute tomar participación en Intel. Lip-Bu Tan salió de la Casa Blanca tras reunión sobre posible participación federal

Empresas

USDT	Tether USDt	0,01%	$132,15 mmd
BTC	Bitcoin	0,42%	$70,27 mmd
ETH	Ethereum	3,93%	$51,2 mmd
DAI	Dai	0,0%	$21,72 mmd
USDC	USDC	-0,02%	$17,61 mmd
FDUSD	First Digital USD	-0,0%	$9,01 mmd
XRP	XRP	1,43%	$7,51 mmd
SOL	Solana	4,43%	$6,22 mmd
DOGE	Dogecoin	3,18%	$3,36 mmd
BNB	BNB	4,23%	$3,32 mmd

OKB	OKB	43,11%	$173,88
CFX	Conflux	12,28%	$0,189 628
AERO	Aerodrome Finance	11,0%	$1,36
VIRTUAL	Virtuals Protocol	9,03%	$1,27
LINK	Chainlink	8,93%	$26,03
PUMP	Pump.fun	8,55%	$0,003 097
ALGO	Algorand	7,3%	$0,258 848
MORPHO	Morpho	6,76%	$2,19
AAVE	Aave	6,13%	$296,82
ARB	Arbitrum	5,41%	$0,510 03

XMR	Monero	-4,29%	$259,06
HYPE	Hyperliquid	-1,64%	$42,6
XDC	XDC Network	-1,59%	$0,081 776
MNT	Mantle	-1,07%	$1,34
SEI	Sei	-0,36%	$0,305 849
AB	AB	-0,09%	$0,009 593
USDC	USDC	-0,02%	$0,999 9
PYUSD	PayPal USD	-0,0%	$0,999 65
FDUSD	First Digital USD	-0,0%	$0,997 68