NVIDIA lance son LLM Nemotron 3 Super

·

·

Scène de lancement de NVIDIA Nemotron 3 Super avec grand écran d’IA et logo NVIDIA dans une salle de conférence sombre.
Résumer cet article avec :

Alors que les systèmes d’IA agentique peinent encore à gérer des tâches complexes sans perdre de vue leur objectif, NVIDIA vient de lancer Nemotron 3 Super, un modèle de langage hybride qui vise à améliorer nettement l’efficacité des agents autonomes. Avec une fenêtre de contexte native d’1 million de jetons et une architecture combinant Mamba-2 et Transformer, ce modèle de 120 milliards de paramètres s’attaque directement à l’un des défis majeurs de l’IA moderne : l’explosion du contexte et la dérive des objectifs. Disponible dès aujourd’hui sous licence ouverte, il se positionne déjà pour des usages en entreprise, de la cybersécurité à l’ingénierie industrielle.


À retenir

  • Nemotron 3 Super est un modèle de langage hybride de 120 milliards de paramètres, optimisé pour les systèmes d’IA agentique.
  • Il combine Mamba-2 (pour l’efficacité des séquences longues) et Transformer (pour le raisonnement précis), avec une technologie Latent MoE permettant d’appeler 4 fois plus d’experts spécialisés sans surcoût.
  • Sa fenêtre de contexte native de 1 million de jetons limite la dérive des objectifs (Goal Drift), un problème majeur pour les agents autonomes.
  • Disponible dès aujourd’hui sous licence ouverte, il est déjà adopté par Perplexity, CodeRabbit, Amdocs et Palantir pour des cas d’usage industriels.
  • Il surpasse les benchmarks DeepResearch et PinchBench, avec un score de 85,6 % sur ce dernier.
  • Optimisé pour l’architecture Blackwell et la précision NVFP4, il réduit de 4 fois les besoins en mémoire tout en accélérant l’inférence.

Si les modèles de langage traditionnels peinent à gérer des flux de travail complexes sans perdre le fil, Nemotron 3 Super change sensiblement la donne. En combinant pour la première fois Mamba-2 et Transformer dans une architecture hybride, NVIDIA répond à un besoin pressant : permettre aux IA agentiques de traiter des tâches longues et multiétapes sans sacrifier précision ni cohérence. Pour les entreprises, cela signifie pouvoir automatiser des processus critiques – de la cybersécurité à l’ingénierie – tout en gardant un contrôle étroit sur la qualité des réponses générées.

Avec une adoption immédiate par des acteurs comme Perplexity et Palantir, le modèle prend place parmi les candidats sérieux au rang de nouveau standard des agents autonomes. Ces premiers déploiements servent déjà de test grandeur nature, notamment sur des environnements sensibles où la moindre erreur de l’IA peut avoir des conséquences opérationnelles directes.


Une architecture hybride qui résout l’impossible

Mamba-2 : l’efficacité des séquences longues sans explosion de mémoire

L’un des principaux défis des IA agentiques est la gestion des séquences longues. Lorsqu’un agent doit traiter des échanges complexes, comme une conversation technique ou un flux de données en temps réel, la mémoire cache Key-Value (KV) des modèles Transformer traditionnels grimpe rapidement, ce qui limite la fenêtre de contexte à quelques milliers de jetons. Nemotron 3 Super atténue ce problème grâce à Mamba-2, une variante du modèle State Space Model (SSM) qui maintient un état constant, quelle que soit la longueur de la séquence.

Ingénieurs NVIDIA dans un data center moderne observant des baies de serveurs GPU illustrant l’architecture hybride de Nemotron 3 Super.
L’architecture hybride combinant Mamba-2 et Transformer repose sur une infrastructure GPU NVIDIA de dernière génération.

Concrètement, cela signifie que le modèle peut traiter des flux de travail générant jusqu’à 15 fois plus de jetons qu’une conversation classique, sans effondrement de performance. Cette capacité ouvre la voie à des scénarios où l’agent conserve l’historique complet d’un projet logiciel, d’une enquête ou d’une série d’incidents techniques.

Avec Mamba-2, nous supprimons la limite artificielle imposée par les caches KV.
Jensen Huang, PDG de NVIDIA, lors de la GTC 2026

Résultat : une fenêtre de contexte native de 1 million de jetons, contre environ 32 000 pour de nombreux modèles concurrents. Cette marge permet d’absorber de longues séquences tout en gardant la capacité d’analyser les derniers événements avec précision.

Latent MoE : plus d’experts, moins de coût

Nemotron 3 Super intègre aussi une technologie appelée Latent Mixture-of-Experts (Latent MoE), qui permet d’appeler quatre fois plus d’experts spécialisés sans augmenter le coût d’inférence. Traditionnellement, les modèles MoE, comme ceux de Google ou Mistral, routent les jetons vers un sous-ensemble d’experts, ce qui impose de limiter leur nombre pour contenir la complexité et la latence.

Avec Latent MoE, NVIDIA contourne ce verrou en projetant d’abord les jetons dans un espace latent compressé avant de les router. Cette étape réduit le volume de calcul nécessaire pour le choix des experts tout en maintenant la granularité de spécialisation.

Cela nous autorise une spécialisation fine des experts, avec une latence comparable à un MoE standard.
Un ingénieur de l’équipe NeMo

Conséquence : le modèle peut mobiliser des centaines d’experts simultanément, chacun optimisé pour une tâche spécifique comme l’analyse de code, le tri de logs ou la génération de rapports. Cette approche permet d’adapter finement le comportement de l’agent à des domaines métiers très différents sans réentraînement complet.

Prédiction multi-jetons : générer du texte 5 fois plus vite

Nemotron 3 Super intègre enfin la Multi-Token Prediction (MTP), une technique qui accélère la génération de texte long en prédisant plusieurs jetons à la fois plutôt qu’un seul. Sur des benchmarks comme LiveCodeBench, dédié au développement logiciel, cela se traduit par un gain de vitesse d’environ 5 fois par rapport à la version précédente du modèle.

Mais l’avantage le plus central reste la réduction de la dérive des objectifs (Goal Drift). Dans les systèmes agentiques, il arrive qu’une IA, en traitant des flux complexes, perde de vue sa tâche initiale, par exemple un agent de cybersécurité qui commence à générer du code au lieu de trier des alertes. Grâce à sa fenêtre de contexte étendue et à la spécialisation de ses experts, Nemotron 3 Super maintient une cohérence élevée, même sur des workflows contenant plusieurs milliers d’étapes.


Des performances qui écrasent la concurrence

1 million de jetons : la fin de l’explosion du contexte

L’un des problèmes récurrents des IA agentiques est l’explosion du contexte : plus un agent traite de données, plus sa mémoire sature et plus il devient inefficace. Nemotron 3 Super arrive avec une fenêtre native de 1 million de jetons, soit environ 30 fois plus que des modèles grand public comme GPT-4 ou Claude 3. Cette marge change la façon de concevoir les flux de travail automatisés.

Pour les entreprises, cela se traduit par des agents capables de gérer des flux de travail complets sans perte d’information. Dans la cybersécurité, par exemple, un agent peut désormais analyser des logs sur plusieurs semaines, croiser des alertes en temps réel et générer des rapports détaillés sans perdre le contexte initial. Cette continuité réduit le risque de faux négatifs lors d’attaques progressives.

Avant, nous devions segmenter les tâches pour éviter la surcharge. Avec Nemotron 3 Super, nous pouvons tout traiter d’un bloc.
Un responsable chez Amdocs, en charge des réseaux télécoms souverains

Des benchmarks qui parlent d’eux-mêmes

Les performances de Nemotron 3 Super s’observent aussi dans les chiffres. Sur PinchBench, un benchmark dédié aux capacités des agents autonomes – planification, résolution de problèmes, orchestration d’outils –, le modèle atteint un score de 85,6 %, soit environ 10 points de plus que son principal concurrent. Il propulse également l’agent de recherche NVIDIA AI-Q à la première place du classement DeepResearch Bench, un test qui évalue la capacité à synthétiser des informations complexes.

C’est toutefois sur LiveCodeBench, dédié au développement logiciel, que Nemotron 3 Super se distingue le plus nettement. Il dépasse les modèles concurrents de 40 % en précision, grâce à la combinaison de Mamba-2 pour le traitement des séquences de code et de MoE pour la spécialisation des tâches, comme la détection de bugs ou la génération de tests unitaires.

C’est la première fois qu’un modèle allie vraiment vitesse et précision sur des tâches aussi techniques.
Un analyste de CodeRabbit, utilisateur précoce du modèle

Optimisé pour Blackwell et NVFP4 : moins cher, plus rapide

Derrière ces performances se cache une optimisation matérielle poussée. Nemotron 3 Super est entraîné nativement en précision NVFP4 (4 bits), une technologie propre à NVIDIA qui divise par quatre les besoins en mémoire par rapport à la génération Hopper (8 bits). Résultat : une inférence environ 2 fois plus rapide sur les cartes Blackwell, les nouveaux accélérateurs de NVIDIA.

Cette optimisation compte directement dans les budgets, car elle réduit les coûts de déploiement en production. Des acteurs comme Together AI, qui héberge déjà le modèle, y voient un moyen d’exposer Nemotron 3 Super à un large public sans alourdir l’empreinte matérielle.

Avec NVFP4, nous faisons tourner Nemotron 3 Super sur nos infrastructures existantes, sans surcoût majeur.
Un responsable de la plateforme Together AI

La licence ouverte laisse en outre aux développeurs la possibilité d’adapter le modèle à leurs besoins spécifiques, qu’il s’agisse de secteurs régulés comme la défense, l’aérospatial ou la finance, ou de cas plus classiques d’automatisation de services internes.


Adoption industrielle : qui utilise déjà Nemotron 3 Super ?

Cybersécurité et développement logiciel : les premiers bénéficiaires

Dès son lancement, Nemotron 3 Super a été adopté par des acteurs majeurs pour des cas d’usage critiques. Dans la cybersécurité, le modèle sert à automatiser le tri des alertes et la réponse aux incidents, en filtrant les faux positifs et en hiérarchisant les menaces. Perplexity, la plateforme de recherche par IA, l’intègre pour ses capacités d’orchestration d’outils, tandis que CodeRabbit et Factory l’utilisent pour leurs agents de code.

Salle de contrôle d’entreprise avec écrans géants et ingénieurs surveillant des flux de données, illustrant l’adoption industrielle de Nemotron 3 Super.
Les premiers déploiements de Nemotron 3 Super en cybersécurité, télécoms et ingénierie montrent une adoption rapide dans l’industrie.

Sur LiveCodeBench, Nemotron 3 Super se révèle particulièrement efficace pour des tâches comme :

  • La détection automatique de vulnérabilités dans du code source, avec une précision annoncée de 92 %
  • La génération de tests unitaires à partir de spécifications, environ 3 fois plus rapide qu’avec des modèles traditionnels
  • L’optimisation de bases de données en temps réel, avec une réduction d’environ 20 % des requêtes lentes

Avant, nous devions faire valider chaque ligne de code par un expert humain. Nemotron 3 Super prend désormais une large part de ce travail, avec une fiabilité surprenante.
Un ingénieur chez Greptile

Industrie et souveraineté : Amdocs, Palantir et Siemens misent sur l’agentique

Côté industriel, Amdocs déploie Nemotron 3 Super pour la gestion de réseaux télécoms souverains, un cas d’usage où la fiabilité et la traçabilité sont centrales. Les opérateurs attendent du modèle qu’il corrèle des millions d’événements tout en documentant chaque décision prise par l’agent.

Nous avions besoin d’un modèle capable de traiter des flux en temps réel tout en restant parfaitement cohérent. Nemotron 3 Super est le seul à répondre à ces exigences dans nos tests.
Un responsable du groupe Amdocs

Du côté de Palantir, le modèle est utilisé pour automatiser l’analyse de données complexes dans des environnements sensibles comme la défense ou le renseignement. Les équipes exploitent sa capacité à gérer des contextes longs et à activer des experts spécialisés sur des segments précis de données.

La gestion des contextes longs et la spécialisation des experts ouvrent des scénarios que nous confions auparavant à des équipes dédiées.
Une source interne chez Palantir

Enfin, Siemens et Dassault Systèmes l’adaptent pour l’automatisation de flux en ingénierie et production, où la précision reste déterminante. Les simulations couvrent des chaînes complètes, depuis la conception jusqu’au contrôle qualité.

Nous pouvons simuler des scénarios industriels entiers avec un niveau de détail que nous n’obtenions pas auparavant.
Un ingénieur chez Dassault Systèmes

Disponible partout : Azure, AWS, Google et Together AI

Pour faciliter son adoption, NVIDIA a rendu Nemotron 3 Super disponible sur les principales plateformes cloud :

  • Azure AI (Microsoft)
  • AWS Bedrock (Amazon)
  • Google Vertex AI
  • Together AI (infrastructure open source)

Cette accessibilité permet aux entreprises de déployer le modèle sans infrastructure dédiée et de le connecter à leurs outils existants. Les intégrateurs notent une montée en charge rapide sur les premières 48 heures, notamment dans les secteurs déjà familiers des workloads IA intensifs.

Nous avons enregistré une adoption très rapide dès les premiers jours de disponibilité publique.
Un porte-parole de NVIDIA

Avec des cas d’usage allant de la cybersécurité au développement logiciel en passant par l’ingénierie industrielle, Nemotron 3 Super se positionne comme une option de référence pour les projets d’IA agentique à grande échelle.


Alors que les systèmes d’IA agentique peinent encore à gérer des tâches complexes sans perdre de vue leur objectif, Nemotron 3 Super marque une avancée majeure. En combinant Mamba-2, Transformer et Latent MoE, NVIDIA propose un modèle capable de traiter des flux de travail longs et multiétapes avec une précision élevée. Avec une adoption immédiate par des acteurs comme Perplexity, Palantir ou Amdocs, il pourrait, à court terme, redéfinir les capacités opérationnelles des agents autonomes en entreprise.


Sur le même Thème :

Laisser un commentaire