Tether prepara una actualización para QVAC SDK que busca llevar el ajuste fino LoRA directamente al dispositivo, sin pasar por la nube. El anuncio se apoya en una investigación de QVAC sobre BitNet b1.58 y GPUs móviles, donde la firma sostiene haber logrado una solución agnóstica al proveedor para ajustar modelos de lenguaje en hardware de consumo y equipos edge.
***
- Paolo Ardoino adelantó que QVAC SDK 0.9.0 llegará en unos 10 días con soporte para ajuste fino LoRA en el dispositivo.
- La propuesta permitiría personalizar LLMs con datos propios sin enviarlos a la nube, un punto clave para privacidad y costos.
- QVAC reporta pruebas con BitNet b1.58 en Samsung Galaxy S25, Pixel 9 e iPhone 16, con mejoras relevantes frente a CPU.
La próxima versión 0.9.0 de QVAC SDK incorporará soporte para ajuste fino LoRA directamente en el dispositivo, según adelantó Paolo Ardoino. De acuerdo con su mensaje, el lanzamiento se produciría en unos 10 días y permitiría a los desarrolladores personalizar modelos de lenguaje grandes con sus propios datos sin enviarlos a la nube.
El anuncio apunta a una de las áreas más activas dentro de la inteligencia artificial aplicada al borde de la red. En términos simples, el ajuste fino permite adaptar un modelo base a tareas, dominios o estilos concretos. LoRA, o Low-Rank Adaptation, hace ese proceso más liviano, ya que entrena adaptadores de bajo rango en vez de modificar todo el modelo.
La promesa de hacerlo en el propio dispositivo tiene implicaciones claras. Puede reducir riesgos de privacidad, evitar transferencias constantes de información sensible y disminuir la dependencia de infraestructura remota. También abre la puerta a casos de uso empresariales y personales donde el control local de los datos es un requisito y no un valor agregado opcional.
En el mensaje, Ardoino describió un flujo sencillo: cargar un modelo base, apuntarlo a un conjunto de datos de entrenamiento y obtener un resultado ajustado sin sacar la información del equipo. Aunque no detalló métricas nuevas en esa publicación, el anuncio encaja con una línea de investigación previa de QVAC enfocada en ejecutar y ajustar LLMs comprimidos sobre hardware de consumo.
El anuncio se produce apenas una semana después de que la emisora de la stablecoin USDT presentara QVAC SDK, un nuevo kit de desarrollo de software de código abierto orientado a la creación, ejecución y ajuste de modelos de IA directamente en dispositivos, desde teléfonos inteligentes y laptops hasta servidores industriales.
Qué mostró QVAC sobre BitNet y GPUs edge
En una publicación técnica del equipo de QVAC, la empresa presentó lo que definió como el primer framework del mundo para ajuste fino de BitNet con LoRA sobre GPUs. El trabajo fue construido sobre llama.cpp con un backend Vulkan y se orientó a soportar ajuste fino e inferencia en GPUs edge heterogéneas, incluyendo hardware móvil de consumo.
El punto de partida de esa investigación es el peso que siguen teniendo memoria y cómputo en los modelos de lenguaje. Según explicó el equipo, el entrenamiento y la inferencia de LLMs suelen quedar restringidos a clústeres de GPUs o TPUs de alta gama. Esa limitación ha incentivado el uso de cuantización extrema para reducir la huella de memoria y mover cargas a dispositivos menos potentes.
Ahí entra BitNet, una arquitectura que representa los pesos con solo 1,58 bits. QVAC recordó que BitNet conserva la arquitectura Transformer, pero reemplaza capas lineales de precisión completa por capas BitLinear con pesos ternarios. Antes de entrar a esas capas, la entrada también se cuantiza con valores -1, 0 y 1.
Según la investigación, Bitnet.cpp ya había habilitado inferencia BitNet sin pérdida en CPU. Sin embargo, el nuevo trabajo buscó aprovechar las capacidades paralelas de las GPUs edge, que en teoría pueden ofrecer mejor desempeño para inferencia y ajuste fino que una CPU convencional en contextos de aprendizaje automático sobre dispositivo.
Los dispositivos y la metodología de las pruebas
Para evaluar el framework, QVAC trabajó con tres dispositivos concretos: Samsung Galaxy S25, Google Pixel 9 y Apple iPhone 16. La selección abarca arquitecturas gráficas relevantes en el mercado móvil, como Adreno, Mali y las GPUs de la serie A de Apple, con el objetivo de aproximarse a escenarios de despliegue realistas.
El equipo utilizó un backend Vulkan personalizado integrado en llama.cpp para ejecutar BitNet b1.58 de ultra-bajo bit. Los experimentos cubrieron dos formatos de pesos, TQ2_0 y TQ1_0, que se decodifican sobre la marcha dentro de shaders de GPU mientras preservan, según la empresa, un comportamiento de inferencia exacto a nivel de bits y sin pérdida.
La inferencia se midió en tokens por segundo, mientras que el ajuste fino se evaluó con tiempo por época. Para la parte de entrenamiento, solo se probó la GPU. En inferencia sí se compararon CPU y GPU con cargas de trabajo idénticas. El benchmark generó 256 tokens de salida por ejecución, con un prompt fijo de 13 tokens, contexto de 512 tokens, semilla 42, cinco repeticiones, 99 capas descargadas a GPU y flash attention deshabilitado.
En el ajuste fino, QVAC utilizó LoRA manteniendo congelados los pesos base BitNet de 1,58 bits. Los adaptadores se entrenaron en FP16. Salvo indicación contraria, la configuración usó rango LoRA de 8 y alpha de 16. También se emplearon AdamW, decaimiento lineal de la tasa de aprendizaje, longitud máxima de 512 tokens y un tamaño de lote global de 512 tokens por paso de optimización, con micro-batching en equipos con memoria limitada.
Memoria, cuantización y diferencias entre TQ1_0 y TQ2_0
Uno de los resultados centrales del estudio fue la reducción de memoria. QVAC comparó BitNet en formatos TQ1_0 y TQ2_0 frente a implementaciones FP16 de Gemma3 y Qwen3. El modelo BitNet 1B en TQ1_0 requirió cerca de 614 MiB de VRAM, menos de la mitad de los 1.536 MiB que necesitó Qwen3-0.6B en FP16.
En una escala mayor, BitNet-2.7B utilizó 1.228 MiB, una huella que el equipo describió como casi 3,5 veces menor que la de Qwen3-1.7B, cifrada en 4.403 MiB. Para QVAC, esto sugiere que arquitecturas ternarias pueden habilitar capacidades de razonamiento equivalentes dentro de restricciones de hardware donde antes solo cabían modelos por debajo de 1.000 millones de parámetros.
La comparación entre formatos también dejó un matiz importante. TQ1_0 reduce más la memoria que TQ2_0. QVAC indicó que TQ1_0 usa aproximadamente 1,6 bits por peso, frente a 2 bits en TQ2_0. Como consecuencia, un modelo BitNet 7B requeriría alrededor de 1,9 GB de VRAM con TQ1_0, frente a cerca de 4,3 GB con TQ2_0.
Sin embargo, esa eficiencia no siempre vino acompañada de mayor velocidad en entrenamiento. En ajuste fino, TQ2_0 fue consistentemente más rápido que TQ1_0. El ejemplo dado por QVAC fue un Pixel 9 con BitNet 2.7B, donde una época tomó 1.570 minutos con TQ1_0 y 304 minutos con TQ2_0. En inferencia, en cambio, el comportamiento varió por dispositivo y QVAC sostuvo que TQ1_0 incluso superó con claridad a TQ2_0 en iPhone 16.
Hasta 13B parámetros en móviles y mejoras frente a CPU
La eficiencia de memoria de BitNet b1.58 fue presentada como el factor decisivo para hacer viable el ajuste fino en el dispositivo. Según QVAC, todas las GPUs móviles evaluadas pudieron realizar ajuste fino de BitNet 2.7B. Más aún, el iPhone 16 logró ajustar modelos de 13B parámetros usando tanto TQ1_0 como TQ2_0, mientras que Pixel 9 y Samsung S25 no tuvieron memoria suficiente para esa tarea.
La empresa también comparó inferencia en GPU frente a CPU. En iPhone 16, la GPU A17 generó texto más de 6 veces más rápido que la CPU en un modelo de 1B parámetros para ambos formatos. En TQ1_0, QVAC reportó 130,7 tokens por segundo en GPU frente a 21,2 en CPU.
En el Samsung S25, la GPU Adreno mostró una ventaja todavía mayor. QVAC indicó que alcanzó hasta 11 veces más throughput que la CPU en el modelo 1B para TQ1_0 y TQ2_0. El dato citado para TQ1_0 fue 27,2 tokens por segundo en GPU frente a 2,4 en CPU. En el Pixel 9, la GPU Mali ofreció una aceleración cercana a 2 veces, con cerca de 8,2 frente a 3,9 tokens por segundo en 1B.
La precisión fue otro punto subrayado por el equipo. QVAC afirmó que sus kernels Vulkan para TQ2_0 y TQ1_0 lograron una precisión muy similar a la observada en CPU y preservaron la propiedad sin pérdida de BitNet b1.58. Según la publicación, no se observaron diferencias, lo que apuntaría a que la semántica de la arquitectura puede mantenerse también sobre GPU.
Por qué importa el anuncio de QVAC SDK 0.9.0
El anuncio de Ardoino sugiere que parte de ese trabajo técnico comenzará a empaquetarse en una herramienta más accesible para desarrolladores. Si QVAC SDK 0.9.0 permite cargar un modelo base y ajustarlo con un conjunto de datos local, la barrera de entrada para experimentar con IA personalizada en hardware de consumo podría reducirse de manera significativa.
Para Tether y su ecosistema tecnológico, el movimiento también amplía su narrativa más allá de stablecoins e infraestructura financiera. La combinación de IA edge, privacidad de datos y ejecución local en smartphones o equipos integrados puede resultar atractiva para empresas que necesitan modelos especializados sin exponer información en servicios externos.
Al mismo tiempo, conviene distinguir entre la viabilidad técnica y la practicidad comercial. Aunque el estudio muestra que ciertos modelos pueden ajustarse en teléfonos modernos, los tiempos de entrenamiento siguen siendo altos en algunos casos. Un ejemplo es el ya citado Pixel 9 con BitNet 2.7B y TQ1_0, que requirió 1.570 minutos por época.
Aun con esas limitaciones, el trabajo apunta a una tendencia clara. La IA en el borde ya no se limita a inferencia liviana. Si QVAC concreta su actualización en los plazos anunciados, los desarrolladores podrían empezar a probar personalización local de LLMs con una combinación de privacidad, ahorro de memoria y menor dependencia de la nube que hasta hace poco parecía reservada a laboratorios o centros de datos.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Empresas
Anthropic, OpenAI y Google aceleran la carrera por la IA mientras Washington abre la puerta federal
Cadena de Suministros
Loop recauda USD $95 millones para impulsar IA que anticipa crisis en cadenas de suministro
Estados Unidos
FBI: estadounidenses perdieron USD $21.000 millones en estafas online durante 2025
Estados Unidos