NVIDIA lanza Nemotron 3 Nano Omni para unificar video, audio, imagen y texto en IA agéntica

𝕏

Hace 15 minutos

Por Canuto

NVIDIA presentó Nemotron 3 Nano Omni, un nuevo modelo abierto que busca condensar en una sola arquitectura el razonamiento sobre texto, imagen, video y audio. La empresa asegura que esta propuesta reduce la complejidad de los sistemas agénticos, mejora la consistencia del contexto entre modalidades y recorta costos de inferencia en cargas empresariales.
***

NVIDIA dice que Nemotron 3 Nano Omni supera a otros modelos omni abiertos en rendimiento para video y documentos bajo umbrales de interactividad en tiempo real.
El modelo usa una arquitectura híbrida MoE 30B-A3B con soporte nativo para texto, imagen, video y audio, además de cuantización FP8 y NVFP4.
La compañía liberó pesos, recetas de entrenamiento, evaluación y datos multimodales para facilitar despliegues locales, en la nube y empresariales.

NVIDIA anunció el lanzamiento de Nemotron 3 Nano Omni, un modelo multimodal abierto y eficiente diseñado para actuar como subagente de percepción y contexto dentro de sistemas de inteligencia artificial agéntica. La propuesta apunta a resolver un problema frecuente en este tipo de arquitecturas: la dependencia de cadenas de modelos separadas para visión, audio y lenguaje, que suelen elevar el costo de inferencia y debilitar la coherencia del contexto compartido.

Según explicó NVIDIA en su blog técnico, Nemotron 3 Nano Omni fue creado para reemplazar esas pilas fragmentadas con un único modelo capaz de procesar y razonar sobre entradas visuales, sonoras y textuales dentro de un mismo bucle de percepción a acción. En términos prácticos, eso significa menos saltos entre sistemas, menor complejidad de orquestación y una base más consistente para agentes que operan sobre pantallas, documentos, videos o conversaciones.

La compañía sostiene que el modelo ofrece resultados de primer nivel en varias pruebas de referencia. Entre ellas citó MMlongbench-Doc y OCRBenchV2 en inteligencia documental, así como WorldSense, DailyOmni y VoiceBench en comprensión de video y audio. También afirmó que, en MediaPerf, un benchmark abierto de la industria para comprensión de video con datos reales de medios, alcanzó el mayor rendimiento total y el menor costo de inferencia para tareas de etiquetado a nivel de video.

El anuncio se produce en un momento en el que la industria tecnológica busca modelos más compactos y especializados para integrarlos en sistemas agénticos complejos. En lugar de depender de un solo modelo gigantesco para todo, muchas empresas están optando por ensamblar subagentes. NVIDIA quiere que Nemotron 3 Nano Omni ocupe precisamente ese lugar de percepción multimodal dentro de arquitecturas más amplias.

Qué promete el nuevo modelo de NVIDIA

Nemotron 3 Nano Omni está construido sobre una arquitectura híbrida mixture-of-experts de 30B-A3B. Ese diseño activa solo el experto necesario para cada tarea y modalidad, una estrategia que, según NVIDIA, permite combinar alto rendimiento con costos computacionales más contenidos. La empresa también remarcó que el modelo fue optimizado para distintas familias de GPU, incluidas NVIDIA Ampere, Hopper y Blackwell.

El soporte técnico incluye compatibilidad con motores de inferencia como vLLM y NVIDIA TensorRT-LLM, además de cuantización FP8 y NVFP4. NVIDIA afirma que estas optimizaciones, junto con muestreo eficiente de video y kernels ajustados al hardware, permiten una inferencia predecible y de baja latencia tanto en estaciones de trabajo como en centros de datos y despliegues en la nube.

Uno de los puntos más destacados del anuncio es el rendimiento bajo umbrales fijos de interactividad. En vez de medir solo concurrencia bruta, las pruebas mantuvieron constante la experiencia por usuario en tokens por segundo y evaluaron cuánto rendimiento total podía sostener cada modelo sin degradar la respuesta. Bajo ese criterio, NVIDIA aseguró que Nemotron 3 Nano Omni logra hasta 9,2 veces más capacidad efectiva del sistema en razonamiento sobre video frente a modelos omni abiertos alternativos.

En razonamiento sobre múltiples documentos, la mejora reportada fue de hasta 7,4 veces en capacidad efectiva del sistema bajo el mismo umbral de interactividad. La compañía agregó que, en GPUs Blackwell y con cuantización NVFP4, el modelo alcanza el mayor rendimiento entre propuestas omnimodales abiertas para cargas empresariales con documentos complejos, razonamiento de largo horizonte y grandes lotes de video.

Ese perfil, de acuerdo con NVIDIA, vuelve al modelo especialmente apto para aplicaciones en finanzas, salud, descubrimiento científico, medios, entretenimiento y plataformas ad-tech que procesan grandes volúmenes de audio y video. Para los lectores menos familiarizados con el término, un sistema agéntico es uno en el que la IA no solo responde preguntas, sino que percibe información, mantiene contexto, decide pasos y ejecuta acciones apoyándose en otros modelos o herramientas.

La arquitectura detrás de Nemotron 3 Nano Omni

NVIDIA describió a Nemotron 3 Nano Omni como un modelo ligero de 30B-A3B orientado al razonamiento entre modalidades con alto rendimiento. Su arquitectura central mezcla capas Mamba, pensadas para mejorar eficiencia de secuencia y memoria, con capas transformer dedicadas al razonamiento más preciso. Según la empresa, esta combinación puede ofrecer hasta cuatro veces más eficiencia en memoria y cómputo.

En el frente visual, el modelo emplea convoluciones 3D para capturar el movimiento entre cuadros de video. También utiliza una capa de inferencia llamada Efficient Video Sampling, que comprime los tokens visuales de múltiples cuadros en un conjunto más pequeño que el modelo lingüístico puede procesar sin saturar la ventana de contexto. Esto es relevante porque el video genera volúmenes de información mucho mayores que una imagen estática.

Para texto, NVIDIA indicó que el sistema usa un modelo sólido como decodificador central y entrena los puentes entre modalidades alrededor de esa base. La intención, según la compañía, es reducir la inestabilidad y el costo del entrenamiento multimodal. En audio, la integración se apoya en componentes como NVIDIA Parakeet, además de conjuntos de datos especializados que van más allá de la transcripción simple.

En la parte visual, Nemotron 3 Nano Omni recurre a C-RADIOv4-H y a una estrategia de compresión por niveles para imágenes de alta resolución y video dinámico. NVIDIA señaló que este codificador puede enfocarse en parches específicos de una imagen completa para preservar la precisión en tareas de OCR, un punto importante en escenarios de análisis documental.

Cómo fue entrenado y por qué NVIDIA insiste en el enfoque abierto

La metodología de entrenamiento combina datos multimodales y ajuste por instrucciones con foco en entornos agénticos del mundo real. NVIDIA explicó que todas las etapas se evaluaron con la biblioteca NeMo Evaluator y que el proceso incluyó entrenamiento de adaptadores y codificadores con datos de documentos, capturas de pantalla, audio y video a gran escala.

Después vino una fase de ajuste fino supervisado implementada con Megatron-LM. Allí, el pipeline fue ampliando de forma progresiva la cobertura de modalidades y la longitud del contexto, pasando de 16K a 49K y luego a 262K. El objetivo fue construir una capacidad unificada para seguir instrucciones en imagen, video, audio y texto dentro del mismo sistema.

Tras el ajuste supervisado, el modelo pasó por aprendizaje por refuerzo multientorno en 25 configuraciones distintas. NVIDIA indicó que usó NeMo Gym y NeMo RL, con más de 2,3 millones de rollouts de entorno para robustecer el desempeño en tareas multimodales y flujos de trabajo agénticos. Ese dato apunta a un entrenamiento más cercano a escenarios operativos que a simples pruebas de laboratorio.

La empresa también remarcó que Nemotron 3 Nano Omni fue diseñado con una filosofía abierta. Publicó checkpoints completos en Hugging Face y adelantó que el modelo también estará disponible como microservicio NVIDIA NIM. A eso sumó recetas completas de preentrenamiento, post-entrenamiento y evaluación, además de cookbooks para despliegue en vLLM, SGLang, TensorRT LLM y recetas de servicio con Dynamo.

En la práctica, esta apertura puede resultar relevante para compañías que necesiten adaptar el modelo en entornos on-premises o híbridos por razones de privacidad y cumplimiento. NVIDIA insiste en que la licencia Nemotron Open Model License ofrece flexibilidad para mantener control sobre los datos y desplegar en distintos entornos sin depender por completo de proveedores externos.

Datos abiertos, ajuste fino y uso en video con foco en privacidad

Además de los pesos y recetas, NVIDIA detalló que Nemotron 3 Nano Omni amplía su compromiso con datos abiertos hacia lo multimodal. La compañía habló de unos 127 mil millones de tokens en modalidades mixtas para entrenamiento de adaptadores y codificadores, y de unos 124 millones de ejemplos curados para post-entrenamiento en combinaciones de texto con audio, imagen y video.

En aprendizaje por refuerzo, señaló que puso a disposición 20 conjuntos de datos en 25 entornos que cubren cinco nuevas tareas multimodales. Entre ellas figuran grounding visual, comprensión de gráficos y documentos, problemas STEM críticos para visión, comprensión de video y reconocimiento automático del habla. El objetivo es extender el pipeline RL de Nemotron más allá del texto.

NVIDIA también divulgó pipelines de generación de datos sintéticos construidos con NeMo Data Designer para tareas complejas de comprensión de documentos largos. Como parte de ese trabajo, incorporó a la mezcla final de entrenamiento unos 11,4 millones de pares sintéticos de pregunta y respuesta visual, equivalentes a cerca de 45 mil millones de tokens. Además, publicó los datos de entrenamiento de imágenes de forma permisiva en Hugging Face.

En el plano de uso práctico, la compañía destacó la combinación de Nemotron 3 Nano Omni con el runtime NVIDIA OpenShell y agent harnesses para comprensión de video. Asegura que el modelo puede resumir y transcribir con alta fidelidad usando un pipeline visual temporal nativo, en lugar de depender solo del audio. Eso permitiría captar contexto en pantalla, como gráficos o texto visible, que otros sistemas podrían pasar por alto.

Otro punto que NVIDIA puso sobre la mesa es la privacidad. Al ejecutarse con NemoClaw dentro de un entorno aislado OpenShell, indicó que los datos de video del usuario pueden permanecer dentro de la infraestructura local. Para sectores como salud, finanzas o medios, ese argumento puede pesar tanto como el rendimiento, ya que muchas cargas multimodales incluyen información sensible o regulada.

Disponibilidad y alcance del lanzamiento

Nemotron 3 Nano Omni ya está disponible, según la empresa, a través de Hugging Face y OpenRouter. También puede usarse con SGLang y vLLM para inferencia, y con herramientas locales como Ollama, llama.cpp, Inference Snaps y LM Studio para ejecutar checkpoints GGUF en el dispositivo.

El despliegue se extiende a grandes proveedores de nube como Amazon Web Services y Oracle Cloud Infrastructure, mientras que Microsoft Foundry fue mencionado como una incorporación próxima. NVIDIA también listó varios proveedores de inferencia y socios cloud, entre ellos Baseten, Clarifai, Fireworks AI, Together AI, Vultr, DigitalOcean y Dell Technologies para entornos empresariales on-premises e híbridos.

El lanzamiento sugiere que NVIDIA quiere empujar su ecosistema Nemotron más allá de los modelos de texto y posicionarse en el centro de la infraestructura para agentes multimodales. Si las cifras de rendimiento y costo se sostienen en producción, Nemotron 3 Nano Omni podría convertirse en una pieza atractiva para empresas que buscan consolidar procesamiento de documentos, video, audio e imagen bajo una sola arquitectura abierta.

Por ahora, el anuncio deja una señal clara: la carrera por la IA agéntica ya no se libra solo en tamaño de modelo o potencia bruta, sino en eficiencia, apertura, capacidad de integración y control del contexto entre modalidades. En ese terreno, NVIDIA intenta presentar a Nemotron 3 Nano Omni como una opción lista para producción y preparada para entornos empresariales exigentes.

Imagen original de DiarioBitcoin, creada con inteligencia artificial, de uso libre, licenciada bajo Dominio Público.

Este artículo fue escrito por un redactor de contenido de IA y revisado por un editor humano para garantizar calidad y precisión.

ADVERTENCIA: DiarioBitcoin ofrece contenido informativo y educativo sobre diversos temas, incluyendo criptomonedas, IA, tecnología y regulaciones. No brindamos asesoramiento financiero. Las inversiones en criptoactivos son de alto riesgo y pueden no ser adecuadas para todos. Investigue, consulte a un experto y verifique la legislación aplicable antes de invertir. Podría perder todo su capital.

Suscríbete a nuestro boletín

𝕏

USDT	Tether USDt	-0,01%	$108,14 mmd
USDC	USDC	-0,01%	$51,34 mmd
BTC	Bitcoin	-0,67%	$32,62 mmd
ETH	Ethereum	0,15%	$12,84 mmd
SOL	Solana	-0,51%	$3,24 mmd
XRP	XRP	-0,68%	$1,81 mmd
DOGE	Dogecoin	1,7%	$1,72 mmd
BNB	BNB	0,02%	$1,25 mmd
USD1	World Liberty Financial USD	-0,0%	$0,955 779 mmd
TRX	TRON	-0,99%	$0,603 57 mmd

H	Humanity Protocol	26,93%	$0,178 395
PI	Pi	6,6%	$0,193 319
PENGU	Pudgy Penguins	5,0%	$0,010 349
PUMP	Pump.fun	4,52%	$0,001 816
币安人生	币安人生	4,51%	$0,382
TAO	Bittensor	4,24%	$256,34
XTZ	Tezos	3,99%	$0,385 026
STABLE	Stable	3,28%	$0,036 436
WLFI	World Liberty Financial	2,2%	$0,073 859
JST	JUST	2,19%	$0,084 203

M	MemeCore	-12,1%	$3,38
DEXE	DeXe	-8,92%	$12,96
CHZ	Chiliz	-7,62%	$0,045 545
ZEC	Zcash	-4,34%	$335,88
HYPE	Hyperliquid	-4,14%	$39,89
FET	Artificial Superintelligence Alliance	-3,38%	$0,198 221
ALGO	Algorand	-2,77%	$0,112 39
SKY	Sky	-2,05%	$0,086 951
XAUt	Tether Gold	-1,78%	$4.590,82
PAXG	PAX Gold	-1,73%	$4.591,75

NVIDIA lanza Nemotron 3 Nano Omni para unificar video, audio, imagen y texto en IA agéntica

Qué promete el nuevo modelo de NVIDIA

La arquitectura detrás de Nemotron 3 Nano Omni

Cómo fue entrenado y por qué NVIDIA insiste en el enfoque abierto

Datos abiertos, ajuste fino y uso en video con foco en privacidad

Disponibilidad y alcance del lanzamiento

Suscríbete a nuestro boletín

Artículos Relacionados

Ling-2.6-flash pasa a código abierto con 104B parámetros y foco en agentes de IA

Poolside abre Laguna XS.2 y revela cómo entrenó sus nuevos modelos de IA para código agéntico

Apple prepara una renovación con IA para edición de fotos en iPhone, iPad y Mac

OpenAI afirma que la IA ya pasó de fallar en matemáticas a resolver problemas de nivel investigación