NVIDIA a profité de sa conférence GTC Taipei, ce 1er juin, pour dévoiler Vera, un processeur central pensé pour les agents d’intelligence artificielle. Avec 88 cœurs sur mesure et une bande passante mémoire record, ce CPU exécute les tâches agentiques 1,8 fois plus vite que les solutions x86 concurrentes d’Intel et d’AMD. L’annonce montre un basculement net vers une informatique pensée pour des agents autonomes capables de raisonner à grande échelle.
À retenir
- 88 cœurs Olympus gravés en Armv9.2‑A, déjà produits en masse.
- 1,8× plus rapide que les CPU x86 pour l’exécution de tâches complexes.
- Bande passante LPDDR5X de 1,2 To/s, soit trois fois celle des serveurs x86 classiques.
- Liaison NVLink‑C2C à 1,8 To/s entre CPU et GPU, ce qui supprime les goulots d’étranglement.
- 80 % de performance en plus par euro investi dans les environnements d’exécution.
- Disponibilité dans les serveurs Dell, HPE et Lenovo dès l’automne 2026.
En concevant un processeur dédié à l’exécution d’agents autonomes, NVIDIA répond à une contrainte économique devenue centrale. Dans les centres de données, les CPU classiques freinent le raisonnement machine. Vera fait du calcul agentique une affaire de rendement, où chaque milliseconde gagnée compte, au bout du compte, dans le revenu par jeton.
Olympus, l’architecture pensée pour le raisonnement agentique
Le cœur de Vera ne reprend pas un bloc existant. NVIDIA a conçu le bloc Olympus à partir du jeu d’instructions Armv9.2‑A, puis l’a adapté aux exigences des flux d’inférence agentique. Résultat : 88 cœurs haute performance par puce, associés à une mémoire LPDDR5X capable de déplacer jusqu’à 1,2 To/s, soit trois fois la bande passante d’un serveur x86 typique.

88 cœurs sur mesure, une interconnexion sans couture
Vera prend en charge nativement le format de précision FP8, utilisé par les GPU pour le traitement des grands modèles de langage. Cette compatibilité évite les conversions coûteuses entre les unités de calcul et fait de la mémoire système une extension quasi directe du cache graphique. L’interconnexion NVLink‑C2C, calibrée à 1,8 To/s, permet au GPU de lire et d’écrire dans l’espace mémoire du CPU sans latence perceptible.
Jusqu’à 1,5 To de LPDDR5X par socket peuvent être adressées, ce qui autorise le déploiement de modèles agentiques massifs sans fragmentation mémoire. Pour les opérateurs de centres de données, cela donne une boucle de raisonnement fluide, même lorsque des milliers d’agents collaborent sur une tâche.
Le multithreading spatial, clé de l’orchestration massive
La vraie originalité de Vera tient à son multithreading spatial. Là où un CPU classique gère quelques dizaines de threads, Vera peut orchestrer jusqu’à 22 500 environnements d’exécution simultanés par rack. Chaque agent IA dispose alors de sa propre « sandbox » sécurisée, utile pour compiler du code, interroger des bases de données ou manipuler des fichiers sans interférence.
Les agents IA sont en passe de devenir les plus gros consommateurs de calcul au monde.
Jensen Huang, PDG de NVIDIA, lors du GTC Taipei.
Cette capacité permet aux usines d’IA de lancer en parallèle des chaînes de raisonnement complètes, avec de l’apprentissage par renforcement, de la génération augmentée de récupération et des appels à des API externes.
La bataille du jeton : quand la performance finance l’infrastructure
Avec Vera, NVIDIA déplace le critère de rentabilité du coût par cœur au coût par jeton traité. Autrement dit, l’important n’est plus la puissance brute de la puce, mais la valeur que chaque cycle d’horloge peut apporter à un fournisseur de services d’IA.

Des gains immédiats pour les hyperscalers
Selon les mesures internes de NVIDIA, Vera offre 80 % de performance supplémentaire par euro investi dans les environnements d’exécution, qu’il s’agisse de lancer un script Python, d’interroger un entrepôt de données ou de déployer un sous-agent spécialisé. Rapportée aux volumes des grands laboratoires d’IA tels qu’OpenAI ou Anthropic, cette efficacité change l’équation économique de la recherche.
NVIDIA estime que ses puces CPU, Grace et Vera, pourraient générer cette année environ 17 milliards d’euros de revenus (20 milliards de dollars). Un chiffre qui montre comment le silicium dédié à l’exécution agentique devient un marché à part entière, à la croisée du cloud computing et de l’IA générative.
Un écosystème déjà en ordre de marche pour l’automne
La plateforme Vera Rubin sera disponible dès l’automne 2026 chez les principaux constructeurs de serveurs : Dell Technologies, HPE, Lenovo et Supermicro. À Taïwan, plus de 150 partenaires industriels participent à l’accélération de la production, un écosystème qui avait déjà permis d’expédier 2,5 millions de processeurs Grace lors de la précédente génération.
Même si le changement d’architecture peut soulever des questions de compatibilité logicielle, l’adoption massive des puces Grace et le soutien de l’écosystème rassurent. NVIDIA mise sur la continuité : l’outillage de compilation et les bibliothèques agentiques déjà déployés restent compatibles, et la transition vers Vera doit rester simple pour les opérateurs.
Les agents IA s’apprêtent à consommer une grande partie de la capacité de calcul mondiale, et NVIDIA place Vera comme le nouvel étalon du centre de données. L’enjeu n’est plus de servir des pages web, mais d’exécuter des millions de micro-raisonnements par seconde, puis de les monétiser.
















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.