DeepSeek aseguró que su nuevo marco DSpark puede acelerar hasta en 85% la generación de respuestas de IA por usuario, una mejora que apunta a reducir costos de servicio y aliviar la presión sobre GPU en plena carrera china por hacer sus modelos más rápidos, baratos y competitivos.
***
- DeepSeek dijo que DSpark elevó la velocidad de respuesta por usuario hasta en 85%.
- La técnica combina decodificación especulativa, generación semi-autoregresiva y verificación programada por confianza.
- El objetivo es reducir cuellos de botella en inferencia, mejorar la experiencia del usuario y usar mejor la infraestructura de chips.
⚡️ DeepSeek lanza DSpark, un marco que acelera la generación de respuestas de IA hasta en 85%
Esta innovación busca reducir costos operativos y la presión sobre GPU en un contexto competitivo.
DSpark mejora la inferencia, incrementando la eficiencia del uso de hardware.
Una… pic.twitter.com/qRaayYoDpJ
— Diario฿itcoin (@DiarioBitcoin) June 29, 2026
DeepSeek presentó una actualización relevante para su modelo insignia V4 al introducir DSpark, un marco diseñado para acelerar la generación de respuestas de inteligencia artificial (IA). La empresa afirmó que el sistema mejora la velocidad de respuesta por usuario hasta en 85%.
El anuncio llega en un momento en que la competencia entre desarrolladores chinos de IA se ha desplazado con más fuerza hacia la reducción de costos operativos y la mejora de la experiencia de uso. Ese giro también responde a la presión por mantener servicios de alto rendimiento con recursos de hardware limitados.
En términos simples, el problema que intenta resolver DSpark aparece durante la inferencia, es decir, cuando un modelo ya entrenado responde consultas reales de usuarios. En ese punto, la latencia y el consumo de cómputo se convierten en factores críticos para la escalabilidad del negocio.
Según explicó DeepSeek en su investigación publicada el sábado, los modelos convencionales generan salidas token por token. Ese método suele ralentizarse cuando las respuestas son largas y termina provocando baja utilización de GPU y mayores tiempos de espera percibidos por el usuario.
La empresa describió esa limitación como un “cuello de botella principal en el servicio de IA”. La importancia de resolverla va más allá del rendimiento técnico, porque impacta de forma directa en costos de infraestructura, capacidad de atención simultánea y calidad del producto final.
Qué cambia con DSpark
El corazón de DSpark es un marco de decodificación especulativa. En lugar de depender únicamente del modelo grande para producir cada token de forma secuencial, el sistema utiliza primero un modelo de borrador más liviano que propone respuestas candidatas.
Después, un modelo más grande verifica esos candidatos en lotes. Ese paso paralelo permite acelerar la salida frente al enfoque tradicional, en el que cada token exige un nuevo avance completo del modelo principal.
La idea de la decodificación especulativa no es nueva dentro de la investigación en modelos de lenguaje grandes. Sin embargo, el trabajo de DeepSeek intenta mejorar dos límites frecuentes: la calidad de los borradores y la eficiencia con que se decide cuánto vale la pena verificar.
En el documento, DeepSeek describe una arquitectura de borrador semi-autoregresiva. Ese diseño busca combinar la velocidad de la generación paralela con la coherencia lógica de la generación secuencial.
La mejora técnica clave consiste en permitir que el modelo produzca pequeños fragmentos de tokens, en vez de limitarse estrictamente a uno por vez. DeepSeek sostiene que ese método eleva la eficiencia sin sacrificar de forma importante la calidad de la salida.
Por qué la inferencia se vuelve un cuello de botella
Para lectores menos familiarizados con la IA generativa, conviene distinguir entrenamiento e inferencia. El entrenamiento ocurre cuando el modelo aprende a partir de grandes volúmenes de datos, mientras que la inferencia sucede cada vez que un usuario le pide una respuesta.
El entrenamiento suele acaparar titulares por sus costos multimillonarios y por la carrera global por chips avanzados. Pero en la práctica, servir millones de consultas diarias también puede convertirse en una carga enorme para centros de datos y presupuestos empresariales.
Cuando un modelo responde de forma puramente autoregresiva, cada token depende del anterior. Esa secuencia introduce una latencia que crece con la longitud de la respuesta, por lo que textos más largos tienden a sentirse más lentos para el usuario.
Ese comportamiento genera además un uso menos eficiente del hardware. DeepSeek señaló que, bajo este patrón, las GPU pueden terminar infrautilizadas en ciertos tramos del proceso, aun cuando el usuario sigue esperando una respuesta completa.
Por eso, cualquier mejora en inferencia tiene implicaciones económicas relevantes. Si una empresa logra atender más consultas con la misma infraestructura, o mantener la misma calidad con menos presión sobre chips avanzados, su estructura de costos mejora de inmediato.
Cómo funciona la generación semi-autoregresiva
La investigación explica que los borradores tradicionales suelen dividirse en dos familias. Los borradores autoregresivos son más consistentes, pero más lentos, mientras que los paralelos son más rápidos, aunque pierden precisión conforme avanza el bloque propuesto.
Esa caída de precisión en las últimas posiciones del bloque es descrita como “decadencia de sufijos”. El problema surge porque los tokens del borrador paralelo pueden quedar internamente mal coordinados al predecirse de manera demasiado independiente.
Para cerrar esa brecha, DSpark utiliza una columna vertebral paralela seguida por una cabeza secuencial ligera. La etapa paralela genera estados ocultos para todas las posiciones del bloque de borrador de manera simultánea.
Luego interviene un módulo secuencial pequeño que añade un sesgo de transición a los logits base. Según el trabajo técnico, esa cabeza secuencial introduce dependencias entre tokens consecutivos con una sobrecarga de latencia inferior a 1,5% del tiempo total de borrado.
Los autores indicaron que emplearon principalmente una “cabeza Markov” para esta tarea. Su conclusión fue que ese enfoque ofrecía un mejor equilibrio entre velocidad y precisión que opciones más complejas, como cabezas basadas en RNN.
La capa de confianza y el uso del hardware
DSpark no solo intenta producir mejores borradores. También añade un sistema de programación basado en confianza que ajusta dinámicamente cuánto se verifica según la demanda computacional y la probabilidad de aceptación de cada token.
Para ello, el sistema incorpora una “cabeza de confianza” que predice un valor entre 0 y 1 para cada posición del borrador. Ese valor estima la probabilidad de que el modelo objetivo acepte ese token si los anteriores del mismo bloque ya fueron aceptados.
La investigación detalla que estos puntajes se calibran mediante un proceso llamado escalación de temperatura secuencial. El propósito es que una confianza predicha, como 80%, refleje con mayor fidelidad una tasa de aceptación real cercana a ese nivel.
Sobre esa base actúa un planificador consciente del hardware. Su tarea es decidir cuántos tokens conviene verificar por solicitud dentro de un lote, maximizando el rendimiento esperado del sistema sin disparar costos innecesarios en la GPU.
El resultado es una lógica adaptable a la carga. Cuando la demanda es baja, el sistema puede verificar más tokens para reducir latencia; cuando la presión sube, poda tokens de baja confianza para preservar el rendimiento global para más usuarios.
Resultados reportados por DeepSeek
DeepSeek afirmó que el módulo DSpark elevó la velocidad de respuesta por usuario hasta en 85%. La empresa presentó esa cifra como una ganancia de eficiencia capaz de reducir la dependencia de infraestructura de chips más grande y potente.
En las pruebas offline descritas en la investigación, DSpark mejoró la longitud aceptada promedio en aproximadamente 25% a 30% frente a líneas base autoregresivas. Ese dato sugiere que el sistema logra proponer bloques útiles más largos antes de ser rechazados.
El trabajo también compara a DSpark con métodos de decodificación especulativa como Eagle3 y DFlash en modelos como Qwen y Gemma. Según los autores, el diseño semi-autoregresivo mantuvo una mejor precisión a lo largo del bloque de borrador.
En el sistema de servicio DeepSeek-V4, la compañía aseguró que DSpark desplazó la frontera de Pareto entre rendimiento agregado e interactividad. Dicho de otro modo, prometió más tokens por segundo para cada usuario sin sacrificar el total de usuarios atendidos.
A un nivel de servicio de 80 tokens por segundo por usuario, la investigación reportó una mejora de 51% en rendimiento agregado. Además, sostuvo que habilitó velocidades superiores a 120 tokens por segundo en escenarios de alta carga que antes no podían mantenerse.
El contexto chino y lo que significa para la industria
El anuncio de DeepSeek debe leerse en el contexto más amplio de la carrera china por optimizar sus modelos frente a las restricciones tecnológicas de Estados Unidos. En ese entorno, mejorar software y eficiencia de inferencia se vuelve casi tan importante como acceder al mejor hardware.
La nota de South China Morning Post subrayó precisamente esa dimensión estratégica. Si una técnica permite extraer más rendimiento de una base de chips limitada, el impacto puede sentirse tanto en competitividad comercial como en resiliencia tecnológica.
Para el mercado de IA, esto refuerza una tendencia clara. La próxima gran batalla ya no gira solo en torno a entrenar modelos más grandes, sino a servirlos de forma rentable, rápida y con una experiencia que no deteriore la percepción del usuario final.
Esa discusión también interesa al ecosistema cripto y blockchain, donde la demanda de infraestructura computacional, centros de datos y chips se cruza cada vez más con aplicaciones de IA. Una inferencia más eficiente puede moderar costos y reconfigurar la economía de proyectos intensivos en cómputo.
DeepSeek todavía deberá demostrar de forma sostenida cómo se traducen estos resultados en producción a gran escala y bajo condiciones diversas. Aun así, DSpark perfila una dirección importante para la industria: menos obsesión por la fuerza bruta y más foco en inteligencia de sistema.
Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.
Este artículo fue escrito por un redactor de contenido de IA.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Bancos y Pagos
BIS alerta que el boom de la IA podría desatar una crisis comparable a 2008
Adopción
Hp profundiza su alianza con OpenAI para llevar Frontier a escala global
AltCoins
Fetch.ai ($FET) lucha por no caer a mínimos olvidados mientras el volumen se desploma
Empresas