Un nuevo sistema de inteligencia artificial especializado en CUDA promete cambiar una tarea que hasta ahora dependía de expertos en hardware y compiladores. CUDA Agent, desarrollado por investigadores de ByteDance Seed y Tsinghua AIR, mostró mejoras de velocidad frente a torch.compile y superó a modelos de propósito general en una de las pruebas más exigentes del sector.
***
- CUDA Agent obtuvo un 96,8% de faster rate frente a torch.compile en KernelBench y un pass rate de 98,8%.
- El sistema combina síntesis de datos, un entorno agéntico con verificación automática y entrenamiento por refuerzo estable.
- En el nivel más difícil de KernelBench, superó por cerca de 40% a Claude Opus 4.5 y Gemini 3 Pro, según los autores.
Optimizar kernels CUDA es una de las tareas más delicadas dentro de la infraestructura moderna de IA. Aunque los modelos de lenguaje ya escriben código con soltura, llevarlos al terreno de la optimización real para GPU ha sido otra historia. Ahí compiten no solo contra programadores muy especializados, sino también contra herramientas maduras como torch.compile.
Ese equilibrio podría empezar a moverse. El estudio CUDA Agent: Large-Scale Agentic RL for High-Performance CUDA Kernel Generation, firmado por Weinan Dai, Hanlin Wu, Qiying Yu, Huan-ang Gao, Jiahao Li, Chengquan Jiang, Weiqiang Lou, Yufan Song, Hongli Yu, Jiaze Chen, Wei-Ying Ma, Ya-Qin Zhang, Jingjing Liu, Mingxuan Wang, Xin Liu y Hao Zhou, presenta un sistema agéntico de aprendizaje por refuerzo orientado a generar kernels CUDA de alto rendimiento.
La propuesta parte de una limitación clara. Según los autores, los enfoques previos para generar código CUDA con modelos de lenguaje mejoraban sobre todo el flujo de refinamiento, pero no cambiaban de fondo la capacidad intrínseca del modelo para optimizar kernels. Eso dejaba un techo bajo de desempeño frente a compiladores y expertos humanos.
CUDA Agent intenta resolver ese punto con tres piezas conectadas. La primera es una tubería escalable de síntesis de datos. La segunda es un entorno de desarrollo con herramientas, verificación automática y perfiles de rendimiento. La tercera es un conjunto de ajustes algorítmicos de RL diseñados para hacer estable el entrenamiento en contextos largos y con muchas interacciones.
Los resultados que reporta el trabajo son llamativos. En KernelBench, el sistema logró tasas de mejora de velocidad de 100%, 100% y 92% sobre torch.compile en los conjuntos Level-1, Level-2 y Level-3, respectivamente. En el ajuste más difícil, Level-3, también superó por alrededor de 40% a modelos propietarios fuertes como Claude Opus 4.5 y Gemini 3 Pro.
Qué problema intenta resolver CUDA Agent
Para lectores menos familiarizados con CUDA, conviene poner el reto en contexto. CUDA es la plataforma de programación de NVIDIA para usar GPUs en tareas de cómputo intensivo. En entrenamiento e inferencia de modelos de IA, los kernels son pequeñas rutinas que ejecutan operaciones críticas sobre grandes volúmenes de datos.
La calidad de esos kernels puede hacer una enorme diferencia en costos, consumo energético y latencia. El problema es que optimizarlos requiere entender detalles de microarquitectura, memoria compartida, ocupación, patrones de acceso y herramientas de perfilado. No basta con que el código funcione. Tiene que correr mejor que las alternativas existentes.
Los autores sostienen que los modelos de lenguaje generalistas todavía quedaban por detrás de sistemas basados en compiladores. También afirman que muchos métodos anteriores dependían de reglas manuales de refinamiento o de bucles fijos de múltiples turnos, lo que desperdiciaba contexto y limitaba la autonomía del agente para explorar estrategias de depuración, búsqueda y perfilado.
Su respuesta fue construir un agente que no solo escribiera código, sino que aprendiera a operar dentro de un entorno de desarrollo para CUDA. Eso incluye analizar cuellos de botella, compilar, probar, perfilar y volver a intentar, con recompensas asociadas a la corrección y al rendimiento. El sistema soportó hasta 128.000 tokens de contexto y hasta 200 turnos de interacción en evaluación.
Cómo fue entrenado el sistema
Uno de los cuellos de botella más serios era la falta de datos de entrenamiento suficientemente diversos. Para enfrentar eso, el equipo desarrolló una tubería de síntesis de problemas en tres etapas. Primero extrajeron operadores semilla desde bibliotecas de PyTorch y Transformers. Luego usaron un modelo para combinar operadores y generar tareas fusionadas más complejas. Por último filtraron los casos con base en criterios de ejecutabilidad, determinismo, no trivialidad y carga razonable.
El conjunto final de entrenamiento incluyó 6.000 muestras, bajo el nombre CUDA-Agent-Ops-6K. Los autores explican que excluyeron operadores demasiado fáciles o demasiado pesados, y además eliminaron problemas con alta similitud respecto a los casos de prueba de KernelBench para evitar contaminación entre entrenamiento y evaluación.
En el entorno agéntico, el modelo tuvo acceso a utilidades de shell y edición de archivos, además de una guía estructurada en formato de habilidades. Esa guía le imponía un flujo de trabajo: analizar el modelo en PyTorch, identificar cuellos de botella, implementar operadores personalizados CUDA, compilar, verificar, perfilar y seguir iterando hasta superar al menos en 5% a torch.compile.
El diseño del entorno también incorporó medidas explícitas contra el reward hacking. El sistema protegió scripts de verificación y perfilado mediante controles de permisos, bloqueó retrocesos triviales a implementaciones ya existentes, validó salidas con cinco entradas aleatorias por problema y afinó el perfilado con sincronización, calentamiento y múltiples mediciones promediadas. Además, el agente no tuvo herramientas de búsqueda web ni acceso a información externa.
La parte más delicada: estabilizar el aprendizaje por refuerzo
Uno de los hallazgos importantes del estudio fue que entrenar este tipo de agente era inestable. En pruebas iniciales, el sistema colapsaba tras apenas 17 pasos. El equipo atribuyó el problema a un fuerte desajuste de distribución entre el conocimiento previo del modelo base y la rareza del dominio CUDA, que representa menos de 0,01% de los datos de preentrenamiento citados por los autores.
La solución propuesta fue una estrategia de calentamiento en varias fases. Primero aplicaron un RL de un solo turno sobre el modelo base. Después recolectaron trayectorias del agente y usaron rejection fine-tuning para inicializar al actor, reteniendo solo trayectorias con recompensa positiva y descartando comportamientos redundantes o inválidos. En paralelo hicieron preentrenamiento del crítico con los estados y recompensas de esas trayectorias.
Con esa preparación, el sistema logró entrenar de forma estable durante 150 pasos, y en otra parte del documento se menciona que la modificación permitió estabilidad hasta 200 pasos con crecimiento consistente de recompensa. Los autores usaron PPO como algoritmo principal, con Seed1.6 como modelo base, un MoE con 23.000 millones de parámetros activos y 230.000 millones totales.
La infraestructura tampoco fue pequeña. Para el perfilado y la verificación, diseñaron una arquitectura de sandbox desacoplada entre CPU y GPU, con un grupo dedicado de 128 GPUs NVIDIA H20. El objetivo era eliminar interferencias entre procesos y asegurar mediciones de latencia estables para que la recompensa del sistema fuera confiable.
Los resultados frente a modelos rivales y frente a torch.compile
La evaluación se hizo sobre KernelBench Levels 1, 2 y 3, con un total de 250 tareas. Los indicadores principales fueron pass rate, que mide cuántas tareas pasan compilación y verificación funcional, faster rate, que cuenta cuántos kernels correctos son más rápidos que la línea base, y speed-up geométrico respecto a PyTorch eager y torch.compile.
En el resultado global, CUDA Agent alcanzó 98,8% de pass rate, 98,4% de faster rate frente a eager y 96,8% frente a compile. El aumento geométrico fue de 2,60x frente a eager y 2,11x frente a compile. En comparación, Claude Opus 4.5 obtuvo 95,2% de pass rate, 90,4% de faster rate frente a eager y 66,4% frente a compile, con 1,99x y 1,46x de mejora geométrica.
Gemini 3 Pro registró 91,2% de pass rate, 87,6% de faster rate frente a eager y 69,6% frente a compile, con 1,92x y 1,42x. Entre los modelos abiertos comparados, GLM 4.6 y Kimi K2 quedaron claramente por detrás en esta tarea. El propio Seed1.6 base también estuvo lejos del sistema final.
Por niveles, el trabajo destaca que CUDA Agent consiguió 100% de pass rate en Level 1 y Level 2, y 94% en Level 3. En Level 2, la prueba de secuencias de operadores, logró un 100% de faster rate frente a torch.compile y un aumento geométrico de 2,80x. En Level 3, el más complejo, alcanzó 90% de faster rate frente a compile y 1,52x de mejora geométrica.
Por qué importa más allá de CUDA
El paper no solo presenta un modelo que escribe mejor código para GPU. También plantea una tesis más amplia: que un modelo fundacional equipado con entorno estructurado, herramientas y recompensas confiables puede pasar de generador pasivo de texto a optimizador activo de sistemas de software.
Esa idea tiene resonancia en varias industrias. En inteligencia artificial, cualquier mejora en kernels puede bajar costos de entrenamiento e inferencia. En centros de datos, puede reducir tiempos y consumo. Y para empresas que dependen de cargas intensivas en GPU, abre la posibilidad de automatizar una capa de ingeniería que hoy sigue siendo costosa y muy escasa en talento.
El trabajo también muestra que las fronteras entre compiladores, agentes de software e IA especializada se están difuminando. En lugar de un modelo que responde una vez, la apuesta es por sistemas que inspeccionan, prueban, fallan, corrigen y vuelven a medir. Ese patrón se parece más a un ingeniero de rendimiento que a un chatbot.
Los propios autores reconocen límites. No compararon contra marcos de compilación más sofisticados como TVM, y admiten que su entrenamiento dependió de una gran infraestructura de GPU y aislamiento por procesos. Aun así, el mensaje central es difícil de ignorar: en una de las tareas más técnicas de la computación para IA, los agentes entrenados con RL ya empiezan a competir de forma seria con herramientas tradicionales y con modelos generalistas líderes.
ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.
Suscríbete a nuestro boletín
Artículos Relacionados
Empresas
Meta retrasa lanzamiento de su modelo de IA Muse Spark y extiende la demora a 2 meses
Hardware
Asus presenta ProArt Mini PC con Nvidia RTX Spark para competir con Mac Studio
AltCoins
Fetch.ai (FET) se desploma un 10% mientras el volumen se dispara en 2026-06-04
Análisis de mercado