Lors du GTC 2026 à San Jose, Nvidia a officiellement abandonné son statut de simple fournisseur de puces. Le PDG Jensen Huang a présenté l’entreprise comme l’architecte d’infrastructures complètes, les AI Factories, capables de faire tourner l’ère naissante de l’IA agentique. Le carnet de commandes prévu pour les trois prochaines années atteint le seuil symbolique de 1 000 milliards de dollars, un chiffre qui résume l’ampleur du virage.
À retenir
- Nvidia se repositionne comme fournisseur d’infrastructures complètes (AI Factories) pour l’IA agentique, où les modèles agissent et collaborent.
- La nouvelle plateforme Vera Rubin intègre sept puces, dont le Vera CPU spécialisé dans l’orchestration et le Rubin GPU, avec une efficacité énergétique doublée.
- Pour répondre aux besoins de l’inférence, Nvidia attaque le goulot d’étranglement de la mémoire avec ICMS et intègre des accélérateurs Groq 3 LPU pour une génération de tokens 15 fois plus rapide.
- L’écosystème (hyperscalers, constructeurs) adopte déjà l’architecture, tandis que les logiciels NemoClaw et OpenShell sécurisent le déploiement des agents.
- Le carnet de commandes projeté (2025-2027) est de 1 000 milliards de dollars (environ 850 milliards d’euros), soit le double des prévisions de l’an dernier.
Alors que l’IA générative arrive à maturité, le prochain cap est l’IA agentique : des systèmes qui planifient et exécutent des tâches complexes de manière autonome. Cette évolution impose des infrastructures repensées de fond en comble, tant en puissance de calcul qu’en orchestration et en gestion de la mémoire. C’est ce chantier que Nvidia veut désormais piloter en se posant en intégrateur de bout en bout.
Le virage stratégique : des composants aux usines à IA
La conférence GTC 2026 restera comme le moment où Nvidia a changé de dimension. Sur la scène du SAP Center, Jensen Huang n’a pas seulement dévoilé de nouvelles puces ; il a redéfini l’ambition de sa société avec une feuille de route complète. Nvidia ne vend plus des moteurs, mais des usines clés en main : les AI Factories, calibrées pour des opérations massives et continues.

Ces infrastructures sont conçues pour la « quatrième loi du scaling », le scaling agentique, où plusieurs intelligences artificielles collaborent et exécutent des actions dans le monde numérique. L’objectif est d’absorber une charge continue d’agents, de requêtes et de données, tout en gardant un coût prévisible pour les clients.
De la puce à l’usine à tokens
La demande a basculé. Elle ne provient plus principalement de l’entraînement des modèles géants, mais de leur utilisation en production (inférence), avec des volumes d’appels quotidiens qui explosent. Exécuter des millions d’agents IA en parallèle, gérer leurs interactions et leur mémoire de contexte nécessite une orchestration d’une complexité inédite. C’est à ce défi que répond le concept d’AI Factory, une approche systémique où tout, des processeurs au refroidissement, est optimisé pour le coût par token généré.
Un pari financier historique
La conviction de Nvidia se traduit par des chiffres vertigineux. L’entreprise anticipe un carnet de commandes cumulé de 1 000 milliards de dollars (environ 850 milliards d’euros) entre 2025 et 2027. Ce montant représente un doublement par rapport aux prévisions annoncées l’année précédente, soit une accélération nette des engagements des clients. Il donne aussi la mesure de la confiance accordée à ces nouvelles usines d’IA.
Vera Rubin : l’architecture pensée pour l’action
Le cœur matériel de cette stratégie est la plateforme Vera Rubin, successeur de Blackwell. Il ne s’agit pas d’une simple évolution de GPU, mais d’un système intégrant sept nouvelles puces conçues pour travailler en synergie étroite. L’objectif est clair : fournir la colonne vertébrale matérielle de l’IA agentique et tenir la charge dans la durée.
Vera CPU, le chef d’orchestre spécialisé
Au centre du dispositif, le Vera CPU rompt avec les processeurs à usage général. Doté de 88 cœurs personnalisés « Olympus » (architecture Arm), il est optimisé pour l’orchestration des agents et l’apprentissage par renforcement. Sa technologie de Spatial Multithreading et sa mémoire LPDDR5X (bande passante de 1,2 To/s) lui permettent d’offrir des performances supérieures de 50 % à un CPU traditionnel pour une efficacité énergétique doublée. Il devient ainsi le cerveau dédié à la logique, à la coordination et à la planification des tâches.
Rubin GPU et Groq LPU : l’accélération intégrée
Pour les tâches de calcul lourd, les Rubin GPU prennent le relais. Ils sont interconnectés par le NVLink 6, permettant une communication à l’échelle de la microseconde entre les 72 GPU et 36 CPU d’un rack NVL72. Nouveauté majeure : un accord stratégique avec Groq intègre directement ses processeurs LPU Groq 3 dans l’architecture. Ces accélérateurs spécialisés dans la génération de séquences promettent une latence jusqu’à 15 fois plus faible pour la production de tokens, un atout décisif pour les agents en temps réel et les services interactifs.
Résoudre l’épineux problème de la mémoire contextuelle
L’IA agentique a besoin de conserver un contexte long et complexe (le KV Cache), ce qui devient rapidement un goulot d’étranglement. Nvidia attaque ce problème avec une offensive sur le stockage. La plateforme ICMS (Inference Context Memory Storage) et l’architecture BlueField-4 STX permettent d’étendre la mémoire des GPU à l’échelle du rack. Les agents peuvent ainsi maintenir des conversations ou des plans de très longue haleine sans perte de performance, ni duplication massive de données en mémoire.
Déploiement : souveraineté, sécurité et passage au physique
Avoir la meilleure architecture ne sert à rien sans adoption massive et durable. Nvidia a verrouillé cet aspect en s’appuyant sur un écosystème déjà conquis et en développant les outils logiciels nécessaires à un déploiement sécurisé en entreprise. Le message est clair : les usines sont prêtes, et les canaux de distribution aussi.

Un écosystème industriel immédiatement mobilisé
Les principaux hyperscalers – AWS, Microsoft Azure, Google Cloud et Oracle – ainsi que les grands constructeurs de serveurs (Dell, HPE, Lenovo, Supermicro) ont immédiatement adopté la plateforme Vera Rubin. Google Cloud intègre par exemple les racks NVL72 dans son AI Hypercomputer. Cette adoption rapide valide l’approche « usine clé en main » et assure à Nvidia un déploiement à l’échelle mondiale dès le lancement, avec des volumes qui peuvent grimper très vite.
NemoClaw et OpenShell : la couche de sécurité indispensable
Laisser des agents IA agir de manière autonome dans les systèmes d’entreprise soulève des questions de sécurité critiques. En réponse, Nvidia lance deux suites logicielles : NemoClaw et OpenShell. Elles fournissent un routage réseau privé pour les agents, des garde-fous pour empêcher les actions non autorisées et des outils de monitoring détaillé. Ces briques deviennent la condition minimale pour que les entreprises acceptent de déployer des IA agentiques sur leurs données sensibles.
L’horizon physique : robots et jumeaux numériques
La vision de Nvidia ne s’arrête pas au cloud. Le salon a mis en scène 110 robots physiques, démontrant le lien entre l’IA agentique numérique et l’action dans le monde réel, du robot industriel au cobot de logistique. La plateforme Omniverse a été mise à jour pour la simulation industrielle à grande échelle, afin de tester les scénarios avant déploiement.
Parallèlement, la gamme Vera Rubin DSX propose des designs modulaires de centre de données, avec l’option DSX Sim qui utilise Omniverse pour créer un jumeau numérique de l’infrastructure avant sa construction physique. Les opérateurs peuvent ainsi optimiser la consommation énergétique et les flux de travail, et corriger la conception avant d’engager les investissements lourds.

















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.