NVIDIA place Nemotron 3 Ultra au centre de sa stratégie de modèles ouverts pour agents IA. L’entreprise décrit Ultra comme un modèle mixture-of-experts de 550 milliards de paramètres, avec environ 55 milliards de paramètres actifs lors de l’inférence. Dans son annonce officielle, NVIDIA indique une disponibilité prévue le 4 juin via Hugging Face, ModelScope, OpenRouter et build.nvidia.com sous forme de microservices NVIDIA NIM. Le lancement ne doit donc pas être lu comme une simple fiche de benchmark : NVIDIA veut aussi proposer un chemin de déploiement pour les équipes qui construisent des agents de longue durée.
Ce que NVIDIA met en avant
La promesse principale porte sur le rapport entre capacité, vitesse et coût. NVIDIA affirme que Nemotron 3 Ultra peut offrir jusqu’à cinq fois plus de vitesse d’inférence et jusqu’à 30 % de coût en moins face à des modèles ouverts comparables de sa catégorie. Il faut toutefois garder une limite éditoriale claire : ce sont des affirmations du fournisseur, pas encore des résultats indépendants dans tous les environnements de production. Les performances dépendront du fournisseur, de la quantification, de la longueur de contexte, du volume de requêtes et du type de tâches confiées à l’agent.
Cette prudence ne retire pas l’intérêt du lancement. Les agents IA ne se résument pas à un score de modèle. Ils doivent appeler des outils, lire des fichiers, manipuler du code, garder un contexte de travail et respecter des règles de sécurité. NVIDIA cite notamment Hermes Agent, LangChain Deep Agents, OpenClaw, OpenHands et OpenCode parmi les environnements pour lesquels Ultra a été post-entraîné. Cette orientation donne au modèle une dimension plus opérationnelle que marketing, surtout pour les entreprises déjà engagées dans l’écosystème NVIDIA.
Un très bon score, mais pas une domination mondiale
Artificial Analysis attribue à Nemotron 3 Ultra un score de 48 sur son Intelligence Index. Dans cette évaluation, cela en fait le modèle ouvert américain le mieux classé. Mais ce n’est pas le premier modèle ouvert mondial dans le même cadre de comparaison. Kimi K2.6, de Moonshot AI, est donné à 54 points. La nuance est importante : Ultra renforce nettement la position américaine dans les modèles ouverts, sans effacer l’avance des meilleurs modèles chinois sur ce benchmark.
La vitesse est l’autre partie du dossier. Artificial Analysis indique qu’un point d’accès de pré-lancement DeepInfra servait Ultra à plus de 300 tokens par seconde, alors que plusieurs grands modèles chinois comparables seraient plutôt proposés autour de 50 à 100 tokens par seconde sur le marché actuel. Pour des agents de longue durée, cet écart peut peser lourd, car chaque appel d’outil et chaque étape intermédiaire ajoutent de la latence. Mais un point d’accès de pré-lancement ne garantit pas le même comportement dans toutes les configurations cloud ou entreprise.
Ce que cela change pour les équipes
Pour les développeurs, l’enjeu n’est pas de présenter Ultra comme le vainqueur absolu de la course aux modèles. La vraie question est de savoir si un modèle ouvert de cette taille, avec un packaging NIM et des intégrations d’agents, peut réduire la dépendance aux API fermées dans certains usages. Les entreprises qui travaillent sur des données sensibles, des bases de code privées ou des workflows réglementés peuvent trouver de la valeur dans un modèle plus contrôlable, à condition de pouvoir assumer l’infrastructure nécessaire.
Le lancement s’inscrit aussi dans le récit plus large de NVIDIA autour de l’IA locale et d’entreprise. Avec RTX Spark et DGX Station, l’entreprise cherche déjà à rapprocher une partie des charges IA du poste de travail, du développeur ou du datacenter privé. Nemotron 3 Ultra représente la version grand modèle de cette logique. Pour un PC classique, ce sont plutôt les modèles Nemotron plus petits qui resteront réalistes.
La conclusion doit donc rester mesurée. Nemotron 3 Ultra donne à NVIDIA un modèle ouvert très visible, un score solide et un argument de déploiement pour agents. Mais la course ne se termine pas avec cette annonce. Les meilleurs modèles chinois conservent l’avantage dans le classement cité, et les promesses de coût ou de vitesse devront être confirmées dans des systèmes réels. Le vrai test sera la capacité d’Ultra à rester rapide, fiable et gouvernable lorsque des agents l’utiliseront sur des tâches longues en production.