Lors de sa keynote au Computex 2026 à Taipei, Jensen Huang a dévoilé Nemotron 3 Ultra, un modèle de langage de 550 milliards de paramètres. La surprise ne vient pas de sa taille, mais de sa vitesse : NVIDIA annonce un débit d’inférence cinq fois supérieur à celui de ses rivaux les plus récents. De quoi bousculer les idées reçues sur l’efficacité des très grands modèles ouverts.
À retenir
- Nemotron 3 Ultra affiche 550 milliards de paramètres au total, mais seulement 55 milliards sont activés par token grâce à une architecture Mixture-of-Experts (MoE).
- Son architecture hybride Mamba-Transformer et la technologie LatentMoE lui permettent d’atteindre des vitesses d’inférence inédites tout en gérant un contexte d’un million de tokens.
- Sur les benchmarks MMLU Pro et MMLU, il surpasse des modèles comme GLM-4.5 et Kimi-K2, avec des scores respectifs de 79,0 et 89,1.
- Disponible dès le 4 juin 2026 sur Hugging Face, ModelScope, OpenRouter et via les microservices NVIDIA NIM, sous licence ouverte autorisant l’usage commercial.
- Des entreprises comme Palantir, CrowdStrike et Microsoft l’intègrent déjà pour alimenter des agents autonomes.
Alors que la course aux modèles massifs semblait ralentir, freinée par des coûts d’inférence prohibitifs, NVIDIA montre avec Nemotron 3 Ultra qu’un très grand modèle peut aussi rester rentable. L’annonce arrive au moment où les entreprises veulent moins dépendre des API propriétaires et héberger leurs propres agents intelligents.
Une architecture hybride pour dompter l’immensité
Pour faire fonctionner un modèle de cette taille sans mobiliser des fermes de GPU, NVIDIA a misé sur une architecture hybride, avec des couches spécialisées à chaque étage.

LatentMoE : quand la compression démultiplie les experts
Le cœur de l’innovation, c’est LatentMoE. Plutôt que de router les tokens directement vers un large ensemble d’experts, le mécanisme les projette d’abord dans un espace latent de dimension 1024, contre 4096 en entrée. Ce changement permet d’activer jusqu’à 512 experts spécialisés pour le même coût mémoire que 128 experts classiques.
Nous avons multiplié par quatre le nombre d’experts sans alourdir la charge de calcul.
explique un ingénieur de NVIDIA lors d’une session technique au Computex.
Mamba-2 et contexte d’un million de tokens
Nemotron 3 Ultra combine des couches Mamba-2, réputées pour leur complexité linéaire, avec des blocs Transformer. Cette architecture mixte lui permet de digérer un contexte d’un million de tokens, soit l’équivalent de plusieurs romans, sans faire grimper la latence. Le modèle a aussi été entraîné nativement en précision NVFP4 (4 bits), optimisée pour les GPU Blackwell. Enfin, la prédiction multi-tokens (MTP) intégrée agit comme un décodeur spéculatif natif, ce qui accélère encore la génération de texte.
Des performances qui redessinent l’économie des LLM
Au-delà des prouesses techniques, ce qui retient l’attention des DSI, c’est l’impact opérationnel. Nemotron 3 Ultra n’est pas seulement grand ; il se veut aussi plus économique à l’usage.
Cinq fois plus rapide, 30 % moins cher
Selon les mesures d’Artificial Analysis, le débit de Nemotron 3 Ultra est cinq fois supérieur à celui de GLM-4.5-355B. Concrètement, un même GPU H200 peut traiter cinq fois plus de requêtes à la seconde. NVIDIA estime que les workflows d’agents IA pourraient voir leur coût opérationnel baisser de 30 %. C’est le genre de chiffre qui compte quand il faut passer à l’échelle sans faire exploser le budget cloud.
Agents autonomes : l’intégration immédiate dans l’écosystème NVIDIA
Le modèle ne débarque pas seul. Il s’intègre aussitôt dans le NVIDIA Agent Toolkit (NemoClaw, OpenShell) et sera distribué via les microservices NIM à partir du 4 juin. Palantir l’utilise déjà pour ses ingénieurs IA autonomes, CrowdStrike pour accélérer l’analyse de menaces, et Microsoft prévoit une intégration native dans Windows pour des agents personnels sécurisés.
Nous passons de chatbots à des agents capables de planifier et d’exécuter des tâches complexes en toute autonomie.
a souligné Jensen Huang sur scène.
Un modèle puissant, mais verrouillé sur l’écosystème NVIDIA ?
Si les promesses sont séduisantes, elles ont un revers. La performance de Nemotron 3 Ultra repose sur une optimisation verticale très poussée, qui le lie étroitement au matériel NVIDIA.

Licence ouverte, mais dépendance matérielle
La licence « open weights » autorise l’usage commercial et l’auto-hébergement. Le modèle a pourtant été entraîné en NVFP4 spécifiquement pour les architectures Hopper et Blackwell. Sur du matériel concurrent, les gains de vitesse pourraient s’évaporer.
Une souveraineté à relativiser
Pour les organisations européennes qui veulent garder la main sur leur infrastructure, ce lien fort avec un fournisseur américain de semi-conducteurs peut poser question, dans un contexte de tensions géopolitiques autour de l’IA. Le rapport performance-coût reste malgré tout en faveur de Nemotron 3 Ultra, surtout pour ceux qui possèdent déjà des GPU NVIDIA.
Avec ce mélange de taille et d’efficacité, NVIDIA secoue le marché des modèles ouverts. Nemotron 3 Ultra vise des agents IA puissants, rapides et moins coûteux à déployer. Les développeurs pourront le vérifier dès le 4 juin, à son arrivée sur les plateformes annoncées.
















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.