NVIDIA presenta Nemotron 3 Ultra como su apuesta más ambiciosa hasta ahora dentro de la familia Nemotron 3. La compañía lo describe como un modelo mixture-of-experts de 550.000 millones de parámetros, con unos 55.000 millones activos durante la inferencia. En su anuncio oficial, NVIDIA sitúa el plan de disponibilidad del 4 de junio en Hugging Face, ModelScope, OpenRouter y build.nvidia.com como microservicios NVIDIA NIM. Por eso el lanzamiento no debe leerse solo como una noticia de benchmark: NVIDIA quiere llevar el modelo a flujos reales de agentes, con empaquetado y herramientas para despliegues empresariales.
La promesa de NVIDIA
El mensaje principal combina escala y eficiencia. NVIDIA afirma que Nemotron 3 Ultra puede ofrecer hasta cinco veces más velocidad de inferencia y hasta un 30 % menos de coste frente a modelos abiertos comparables de su categoría. Es importante tratar esas cifras como afirmaciones del proveedor, no como garantía universal para cualquier instalación. El resultado real dependerá del proveedor, la cuantización, el tamaño de los lotes, la longitud de contexto y el tipo de tareas que ejecute el agente.
Aun así, el enfoque es relevante. Un agente de IA no necesita solo un modelo con buen razonamiento; también necesita llamar herramientas, manipular archivos, escribir código, mantener contexto y respetar controles de seguridad. NVIDIA menciona Hermes Agent, LangChain Deep Agents, OpenClaw, OpenHands y OpenCode como entornos para los que Ultra fue post-entrenado. Esa lista explica por qué la compañía habla menos de un chatbot y más de una pieza para sistemas agénticos de producción.
Un liderazgo estadounidense, no global
Artificial Analysis da a Nemotron 3 Ultra una puntuación de 48 en su Intelligence Index. Esa cifra lo coloca como el modelo abierto estadounidense mejor situado dentro de esa evaluación. Pero no lo convierte en el líder global de los modelos abiertos. Kimi K2.6, de Moonshot AI, aparece con 54 puntos en el mismo contexto. La lectura correcta es que NVIDIA sube mucho el listón para los modelos abiertos de Estados Unidos, mientras que la frontera china sigue por delante en ese ranking.
La velocidad también forma parte de la historia. Artificial Analysis afirma que un endpoint previo de DeepInfra sirvió Ultra a más de 300 tokens por segundo, mientras que varios modelos chinos grandes comparables suelen moverse en el mercado entre 50 y 100 tokens por segundo. Para sistemas de agentes, esa diferencia puede ser importante: una tarea larga acumula llamadas, pasos intermedios y esperas. Pero un endpoint previo no equivale automáticamente al rendimiento de cada despliegue cloud, local o empresarial.
Qué cambia para los desarrolladores
Para los equipos técnicos, la pregunta no es si Ultra “gana” toda la carrera. La pregunta más útil es si un modelo abierto de esta escala puede reducir la dependencia de APIs cerradas en algunos escenarios de agentes. Empresas con datos sensibles, repositorios privados o requisitos regulatorios pueden valorar más control sobre el modelo, la infraestructura y la gobernanza. Al mismo tiempo, Ultra no es un modelo pensado para ejecutarse cómodamente en un portátil normal. La mayoría de usuarios lo probará mediante APIs, socios cloud o microservicios NIM.
El lanzamiento encaja con la narrativa más amplia de NVIDIA en Computex. La compañía ya había presentado RTX Spark y DGX Station como parte de una estrategia para acercar ciertas cargas de IA al desarrollador, a la estación de trabajo o al entorno empresarial. Nemotron 3 Ultra representa el extremo de gran modelo de esa estrategia; para pruebas locales, los modelos Nemotron más pequeños seguirán siendo la opción más realista.
El balance editorial debe ser prudente. Nemotron 3 Ultra es un avance fuerte para NVIDIA y para el ecosistema abierto estadounidense: combina escala, puntuación competitiva y una propuesta de despliegue pensada para agentes. Pero el liderazgo global no está cerrado, las cifras de coste y velocidad deben validarse en producción y la utilidad real dependerá de la fiabilidad del modelo en tareas largas. El lanzamiento importa; la prueba decisiva llegará cuando los equipos lo usen con datos, herramientas y restricciones reales.