Por Canuto  

NVIDIA presentó Nemotron 3 Super, un asistente de inteligencia artificial abierto que busca romper con el modelo dominante de sistemas propietarios. La propuesta no solo incluye el modelo, sino también un documento técnico extenso y detalles sobre su entrenamiento, en una jugada que podría alterar el equilibrio entre IA cerrada, acceso público y velocidad de inferencia.
***

  • Nemotron 3 Super fue descrito como un asistente abierto y gratuito, acompañado por un paper de 51 páginas y detalles del dataset de entrenamiento.
  • El sistema fue entrenado con 25 trillones de tokens y cuenta con 120.000 millones de parámetros, con un rendimiento comparable al de modelos cerrados de hace cerca de 18 meses.
  • NVIDIA destaca técnicas como NVFP4, predicción de múltiples tokens, capas mamba y stochastic rounding para acelerar el modelo hasta 7 veces frente a alternativas abiertas similares.


La discusión sobre inteligencia artificial abierta volvió a ganar fuerza tras la presentación de Nemotron 3 Super, el nuevo sistema de NVIDIA que apunta a desafiar el dominio de los modelos propietarios. En un entorno donde muchas plataformas exigen suscripciones y ofrecen pocos detalles sobre su funcionamiento interno, la compañía puso sobre la mesa un enfoque mucho más transparente.

Según explicó Two Minute Papers en el video NVIDIA’s New AI Just Changed Everything, la propuesta no se limita a liberar un modelo. También incluye un documento técnico de 51 páginas que detalla cómo fue construido el sistema y qué datos se utilizaron durante el entrenamiento, algo poco habitual en la industria.

Ese punto resulta clave para investigadores, desarrolladores y empresas. La falta de visibilidad sobre datasets, arquitectura y métodos de optimización ha sido una de las principales críticas a la actual ola de IA generativa. NVIDIA intenta posicionarse en el extremo opuesto con una estrategia que prioriza apertura técnica y replicabilidad.

El entusiasmo alrededor del anuncio también se explica por sus cifras. Nemotron 3 Super fue entrenado con 25 trillones de tokens y cuenta con 120.000 millones de parámetros. En términos de capacidad, el sistema se ubica cerca de los mejores modelos cerrados de frontera de hace alrededor de un año y medio, aunque todavía queda rezagado en algunas pruebas frente a los líderes actuales.

Un modelo abierto que busca competir por velocidad y transparencia

En el ecosistema de IA, el tamaño del modelo y la calidad del entrenamiento son solo una parte de la historia. La otra parte es la eficiencia. Un sistema puede ser competente, pero si es demasiado lento o costoso de ejecutar, su adopción práctica se complica. Por eso, uno de los aspectos más comentados del anuncio fue la velocidad de Nemotron 3 Super.

La presentación comparó dos versiones del modelo, BF16 y NVFP4. En precisión, ambas mostraron resultados similares. Sin embargo, la diferencia apareció en el rendimiento de ejecución. La variante NVFP4 sería cerca de 3,5 veces más rápida que la otra versión del propio modelo, y hasta 7 veces más veloz que otros modelos abiertos de inteligencia comparable.

Esa combinación de velocidad y nivel de capacidad es la parte que más llamó la atención. No se trata solamente de ofrecer un sistema competitivo de libre acceso, sino de hacerlo con un desempeño que podría volverlo mucho más atractivo para despliegues reales, especialmente en entornos donde la latencia y el costo por inferencia pesan tanto como la calidad de las respuestas.

Para el público menos familiarizado con estos conceptos, la inferencia es el proceso por el cual un modelo ya entrenado responde preguntas o genera contenido. En esa fase, reducir tiempos de cálculo sin deteriorar precisión se ha convertido en uno de los principales frentes de competencia entre compañías de IA.

Las cuatro claves técnicas detrás de Nemotron 3 Super

Una de las técnicas más destacadas es NVFP4, un método que acelera la ejecución al comprimir parte de las operaciones matemáticas del modelo. La idea puede entenderse como una reducción controlada de precisión numérica. En vez de usar formatos más pesados para todos los cálculos, el sistema redondea ciertos valores donde eso no provoca un deterioro significativo en la calidad final.

Ese tipo de compresión suele traer un riesgo importante. Si se aplica de forma indiscriminada, el modelo puede perder exactitud y generar respuestas erráticas. Lo que NVIDIA plantea aquí es una implementación selectiva, donde las operaciones más sensibles conservan mayor precisión y el resto se optimiza para ganar velocidad.

La segunda técnica mencionada es la predicción de múltiples tokens. En lugar de producir una respuesta token por token, o palabra por palabra en una simplificación útil, el sistema proyecta varios elementos futuros al mismo tiempo. En el caso descrito, puede calcular 7 tokens de una sola vez y luego verificarlos en bloque.

Ese mecanismo reduce pasos intermedios y, por tanto, acelera la generación. Es una mejora relevante porque buena parte de la lentitud en los modelos generativos proviene precisamente de ese proceso secuencial, donde cada nuevo token depende del anterior y obliga a repetir ciclos de cálculo.

La tercera pieza son las llamadas capas mamba. De acuerdo con la explicación reseñada por Two Minute Papers, su función es mejorar la gestión de memoria. En vez de revisar una y otra vez grandes volúmenes de información previa, el modelo resume el contexto importante en una representación comprimida, lo que le permite procesar secuencias largas de manera más eficiente.

La analogía utilizada compara al sistema con un estudiante. Los modelos tradicionales releerían el libro constantemente para responder una pregunta. Las capas mamba, en cambio, se parecen a leer una sola vez y luego trabajar con apuntes condensados que conservan lo esencial y descartan el relleno. Esa lógica resulta especialmente útil cuando el contexto crece.

La cuarta técnica es stochastic rounding. Aquí el problema a resolver aparece cuando el redondeo numérico genera pequeños errores que, al acumularse paso a paso durante la generación, terminan desviando la respuesta de forma importante. NVIDIA lo aborda introduciendo un ruido aleatorio cuidadosamente diseñado para que, en promedio, esos errores se cancelen entre sí.

La idea puede sonar contraintuitiva, porque agregar ruido normalmente se asocia con perder precisión. Sin embargo, la lógica descrita es distinta. Si unas aproximaciones quedan por debajo y otras por encima, el promedio tiende a estabilizarse cerca del valor correcto. Eso permite sostener el beneficio de la compresión sin que el error acumulado arruine la salida final.

Fortalezas, límites y por qué el anuncio podría cambiar la conversación

Pese al entusiasmo, Nemotron 3 Super no fue presentado como una solución perfecta. El propio análisis comenta que en tareas exigentes, como problemas matemáticos complejos, el sistema puede tardar mucho tiempo en llegar a una respuesta. En un ejemplo citado, una consulta sobre ensamblaje de vacas robóticas con alta carga matemática hizo que el modelo pensara durante casi una hora.

Esa observación ayuda a matizar el impacto real del lanzamiento. La velocidad promedio puede ser muy superior en varios escenarios, pero ciertos trabajos intensivos siguen exigiendo infraestructura potente. En el comentario reseñado se menciona el uso de una instancia de Lambda más rápida para ese tipo de casos, lo que sugiere que aún existe una brecha entre promesa tecnológica y operación cotidiana en tareas extremas.

Aun así, el anuncio tiene implicaciones amplias. Durante los últimos años, los sistemas cerrados dominaron la narrativa por su rendimiento y por la enorme inversión requerida para construirlos. NVIDIA intenta mover ese eje con un modelo abierto que, si bien no alcanza necesariamente la cima absoluta del presente, sí se acerca al nivel que los mejores actores propietarios mostraban hace cerca de 18 meses.

Eso es relevante porque aquellos modelos cerrados, según se señaló, costaron miles de millones de dólares en entrenamiento y se desarrollaron bajo fuerte secretismo. Que un sistema de libre acceso pueda aproximarse a ese umbral con documentación técnica extensa y datos de entrenamiento identificados cambia el punto de referencia para investigadores y competidores.

El otro componente político e industrial del anuncio es la escala de la apuesta de NVIDIA. En el análisis se menciona que la compañía, liderada por Jensen Huang, planea invertir decenas de miles de millones de dólares en sistemas completamente abiertos como este. Si esa orientación se mantiene, la competencia entre plataformas abiertas y cerradas podría intensificarse de forma drástica en los próximos años.

Para un público acostumbrado a seguir la evolución de mercados tecnológicos, la lectura es clara. La apertura no solo puede ser un gesto hacia la comunidad académica o desarrolladora. También puede convertirse en una estrategia comercial y geopolítica, sobre todo si permite expandir el uso de hardware, fortalecer ecosistemas y erosionar la ventaja narrativa de los rivales más herméticos.

Nemotron 3 Super, por tanto, no destaca únicamente por sus cifras o por su arquitectura. Su importancia radica en la combinación de transparencia, rendimiento competitivo y técnicas de optimización que buscan hacer viable una IA abierta a gran escala. Si la promesa se consolida, el anuncio podría marcar un punto de inflexión en una industria que hasta ahora había premiado el secretismo tanto como la innovación.


ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín