Por Canuto  

Un nuevo sistema llamado DualPath propone usar el ancho de banda ocioso de los motores de decodificación para acelerar la carga de KV-Cache en agentes de IA, un cuello de botella que ya limita el rendimiento de los LLM en sesiones largas y multi-turno.
***

  • DualPath introduce una doble ruta para cargar KV-Cache y aliviar la saturación de los motores de prefill.
  • En pruebas con cargas agénticas, el sistema elevó el rendimiento offline hasta 1,87× y el online en 1,96× en promedio.
  • El trabajo apunta a un problema clave para centros de datos de IA: las GPUs pueden quedar ociosas aunque el cómputo no sea el límite.


Los agentes de inteligencia artificial están cambiando la forma en que se usan los modelos de lenguaje grandes. Ya no se trata solo de una pregunta y una respuesta, sino de sesiones largas donde el modelo planifica, llama herramientas, interpreta resultados y acumula contexto durante decenas o cientos de turnos.

Ese cambio trae un problema menos visible que el costo de las GPUs. En muchas cargas modernas, el cuello de botella no está en calcular la respuesta, sino en leer y mover la memoria que guarda el contexto previo del modelo, conocida como KV-Cache.

El trabajo DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference, firmado por Yongtong Wu, Shaoyuan Chen, Yinmin Zhong y otros investigadores de Peking University, Tsinghua University y DeepSeek-AI, presenta una arquitectura para atacar ese límite. La propuesta busca redistribuir el tráfico de lectura de KV-Cache entre más componentes del sistema.

Según los autores, DualPath mejora el rendimiento de inferencia offline hasta 1,87× en su sistema interno. También eleva el rendimiento de servicio online en un factor promedio de 1,96× sin violar los objetivos de latencia definidos para el servicio.

Por qué los agentes LLM son distintos a los chatbots tradicionales

Para lectores nuevos en el tema, la KV-Cache es una memoria que almacena claves y valores de atención ya calculados por un modelo. Su función es evitar que el LLM vuelva a procesar todo el contexto en cada turno, algo esencial cuando las conversaciones crecen mucho.

En un chatbot tradicional, el usuario suele enviar una pregunta y recibir una respuesta. En cambio, un agente LLM puede usar un navegador, ejecutar código, consultar una terminal o pedir retroalimentación humana, y repetir ese ciclo muchas veces.

El paper describe sesiones donde el contexto puede crecer hasta longitudes extremas. En los rastros usados por los investigadores, el promedio fue de 157 rondas, con una longitud media de contexto de 32.700 tokens y apenas 429 tokens agregados por turno.

Ese patrón produce una tasa de acierto de KV-Cache de 98,7%. En términos simples, casi todo el contexto ya existe en memoria externa y debe leerse de nuevo. La computación para los tokens nuevos pesa menos que el movimiento de datos.

Los autores señalan que las cargas agénticas suelen tener tasas de acierto de KV-Cache de al menos 95%. Esto convierte a la inferencia multi-turno en una tarea dominada por entrada y salida, no solo por FLOPS.

El cuello de botella aparece en la arquitectura prefill-decode

Los sistemas modernos de inferencia suelen separar dos fases. La fase prefill procesa el prompt y construye el estado inicial, mientras la fase decode genera tokens de forma autoregresiva. Esta separación se conoce como desagregación prefill-decode, o PD.

El diseño mejora la eficiencia porque cada fase tiene necesidades distintas. Prefill tiende a ser más intensivo en cómputo y se beneficia de lotes grandes. Decode suele estar más limitado por memoria y latencia.

Sin embargo, el enfoque crea una asimetría en cargas agénticas. Los motores de prefill deben leer enormes volúmenes de KV-Cache desde almacenamiento externo, mientras los motores de decode pueden mantener ocioso gran parte de su ancho de banda hacia almacenamiento.

En centros de datos de IA modernos, una configuración típica puede incluir 8 GPUs Hopper por nodo, cada una con una NIC de cómputo de 400 Gbps, y una NIC adicional de almacenamiento de hasta 400 Gbps por nodo. La red de cómputo y la red de almacenamiento suelen estar aisladas.

El problema es que las NIC de almacenamiento del lado prefill se saturan. A la vez, las NIC de almacenamiento del lado decode no se usan lo suficiente. Como resultado, la GPU puede quedar infrautilizada aunque exista capacidad de cómputo disponible.

DualPath agrega una segunda ruta para cargar KV-Cache

La idea central de DualPath es que la carga de KV-Cache no tiene que depender solo del prefill. Además de la ruta tradicional desde almacenamiento hacia el motor de prefill, el sistema permite cargar KV-Cache primero en motores de decode.

Luego, esos datos viajan desde decode hacia prefill mediante RDMA sobre la red de cómputo. RDMA permite transferencias directas de memoria entre máquinas con baja sobrecarga, una característica muy usada en infraestructuras de alto rendimiento.

Con esa doble ruta, DualPath convierte el ancho de banda de almacenamiento en un recurso más global. El sistema puede aprovechar tanto las NIC de los motores prefill como las de los motores decode, en lugar de forzar todo el tráfico por un solo lado.

Los autores también integran prefill por capas. Esa técnica reduce presión sobre la memoria HBM de las GPUs porque carga y libera KV-Cache capa por capa, en vez de mantener todo el contexto completo al mismo tiempo.

El diseño usa búferes pequeños en DRAM para los motores prefill y decode. La KV-Cache se organiza en bloques completos y bloques por capa, lo que permite transmitir fragmentos adecuados para cada fase sin convertir manualmente el diseño de memoria durante la inferencia.

Tráfico, latencia y planificación dinámica

Agregar una segunda ruta no basta. Si el nuevo tráfico interfiere con las comunicaciones críticas del modelo, el rendimiento puede caer. Por eso DualPath introduce un administrador de tráfico centrado en la NIC de cómputo, o CNIC.

El sistema fuerza todo el tráfico que entra o sale de la GPU, incluidos los movimientos entre host y dispositivo, a pasar por la CNIC emparejada con esa GPU mediante GPUDirect RDMA. Así puede aplicar reglas de calidad de servicio sobre una ruta común.

En redes InfiniBand, los autores usan carriles virtuales. El tráfico de ejecución del modelo queda en un carril de alta prioridad, mientras las transferencias de KV-Cache pasan por uno de baja prioridad. La configuración reserva cerca de 99% del ancho de banda al carril de alta prioridad.

DualPath también incorpora un planificador global. Este componente decide qué motor prefill y qué motor decode atienden cada solicitud, y elige si la KV-Cache debe leerse por el lado prefill o por el lado decode.

La planificación considera colas de lectura, tokens pendientes y carga de GPU. Además, un planificador interno en los motores prefill intenta equilibrar el tiempo de ejecución de las capas de atención para reducir burbujas de GPU entre grupos paralelos.

Resultados: hasta 1,87× offline y 1,96× online

La evaluación cubrió tres modelos. Los autores probaron DeepSeek V3.2 de 660.000 millones de parámetros, una versión interna reducida de 27.000 millones y Qwen2.5-32B.

Las cargas usadas provinieron de tareas agénticas realistas con contextos máximos de 32.000, 48.000 y 64.000 tokens. En el caso de 64.000 tokens, las trayectorias promediaron 157 turnos, 429 tokens agregados por turno, 176 tokens generados, 55.958 tokens totales y 32.721 tokens de contexto.

En inferencia offline, DualPath redujo el tiempo de finalización de trabajos frente al sistema base. En DeepSeek V3.2 de 660.000 millones, el incremento alcanzó hasta 1,87×. En el modelo interno de 27.000 millones, la mejora llegó hasta 1,78× frente a la base.

En servicio online, el sistema elevó la capacidad de llegada de agentes por segundo. La mejora fue de 1,67× para el modelo de 27.000 millones y de 2,25× para DeepSeek V3.2 de 660.000 millones, bajo un objetivo de TTFT de hasta 4 segundos y TPOT de hasta 50 milisegundos.

El estudio también muestra una evaluación a gran escala con hasta 1.152 GPUs. Al pasar de una configuración 2P4D con 2.000 agentes a una 48P96D con 48.000 agentes, el tiempo de finalización se mantuvo cercano, con 3.167 segundos frente a 3.201 segundos.

Qué significa para centros de datos de IA y empresas cripto

La noticia importa más allá de los laboratorios de IA. Muchas empresas de blockchain, análisis on-chain, trading algorítmico y atención automatizada ya exploran agentes que consultan datos, ejecutan herramientas y mantienen contextos largos.

Si esas aplicaciones escalan, el costo operativo no dependerá solo del precio de las GPUs. También dependerá de cómo se mueve la memoria entre almacenamiento, DRAM, redes internas y HBM. DualPath apunta justo a ese punto.

El paper no presenta a DualPath como una solución universal. Su análisis indica que el beneficio aparece bajo relaciones razonables entre nodos prefill y decode, y asume topologías bien configuradas, balanceo de tareas y redes capaces de manejar RDMA sin congestión relevante.

Además, los autores reconocen trabajo futuro. Mencionan la necesidad de enfoques más adaptativos para elegir paralelismo y proporción prefill-decode, especialmente en cargas offline dinámicas como entrenamientos con refuerzo para agentes.

Aun así, el mensaje técnico es claro. A medida que los agentes de IA acumulen contexto y usen herramientas durante sesiones largas, la batalla por el rendimiento puede moverse desde el cálculo puro hacia el ancho de banda de almacenamiento y la coordinación de tráfico interno.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín