En novembre 2025, les accélérateurs IA comme le Google TPU v6e Trillium, l’AMD Instinct MI300X, le NVIDIA H100 Hopper et le B200 Blackwell dominent le marché des hyperscalers et des fournisseurs de cloud pour l’entraînement et l’inférence de LLM. Lancées entre fin 2023 et 2025, ces puces se disputent la première place en matière d’efficacité énergétique, de performances et de coût total de possession. Ce comparatif détaille leurs atouts pour aider les entreprises européennes à choisir la solution la plus adaptée à leurs usages et à leurs budgets.
Panorama stratégique des accélérateurs en compétition
Les accélérateurs IA sont devenus les composants centraux des data centers modernes. Chaque puce doit arbitrer entre puissance brute, intégration logicielle et densité énergétique pour soutenir des modèles de langage de plus en plus lourds. Les offres de Google, AMD et NVIDIA, lancées ces dernières années, ciblent directement hyperscalers et constructeurs de clouds, avec un positionnement qui reflète une concurrence frontale sur les charges de travail AI et HPC.

Positionnement des marques et architectures phares
Le Google TPU v6e, nom de code Trillium, est un ASIC conçu pour Google Cloud, sixième génération de Tensor Processing Units. Lancé récemment, il est optimisé pour l’inférence à faible concurrence et l’entraînement de grands modèles comme les LLM ou les CNN pour le text-to-image et la vidéo. Exclusif à l’écosystème Google, il privilégie le rendement dans des environnements strictement maîtrisés.
L’AMD Instinct MI300X, GPU basé sur l’architecture CDNA 3 et dévoilé le 6 décembre 2023, se positionne face au NVIDIA H100 sur les applications IA et HPC les plus exigeantes. Pensé pour les hyperscalers, il se distingue en inférence à grande échelle grâce à sa mémoire unifiée de très grande capacité.
Le NVIDIA H100, sous architecture Hopper, s’est imposé comme la référence de l’industrie depuis son lancement, en particulier pour l’entraînement profond. Son successeur, le B200 Blackwell, vise à prendre le relais avec une plateforme unifiée pour l’IA générative et l’inférence à très grande échelle. NVIDIA conserve un avantage grâce à la combinaison de performances brutes et d’un écosystème matériel-logiciel très structuré.
Utilisateurs cibles et cas d’usage dominants
Les hyperscalers, y compris en Europe, privilégient le TPU v6e pour l’inférence en batch à faible concurrence, adapté aux services cloud dédiés à un seul tenant ou à quelques gros clients. Ses utilisateurs ciblent surtout la formation de LLM massifs dans Google Cloud, avec des topologies optimisées pour des pods de 256 puces.
Le MI300X attire les constructeurs de cloud et les hyperscalers pour l’inférence et certaines charges HPC, où sa capacité mémoire de 192 GB HBM3 unifiée permet de gérer des modèles très étendus sans swapping. Il convient particulièrement aux déploiements 8x GPU totalisant environ 1,5 TB de HBM3 pour des entraînements parallélisés ou des scénarios d’inférence dense.
Les H100 et B200 visent l’ensemble des acteurs IA, des startups européennes aux géants du numérique, pour le deep learning et l’inférence multi-utilisateur. Le B200 se distingue sur l’IA générative, avec des systèmes DGX capables de fournir jusqu’à 144 petaFLOPS FP4 en inférence dans une configuration 8x.
Chronologie des sorties et maturité actuelle
Le MI300X a été lancé le 6 décembre 2023, suivi par le TPU v6e en tant que sixième itération de Trillium. Le H100 Hopper avait déjà consolidé sa position fin 2022-début 2023, tandis que le B200 Blackwell commence à se déployer en 2024-2025 comme successeur de nouvelle génération. En novembre 2025, les quatre plateformes sont considérées comme matures, même si Blackwell poursuit encore sa montée en charge chez les grands comptes.
Confrontation technique des spécifications clés
Les caractéristiques matérielles conditionnent directement la capacité d’un accélérateur IA : mémoire HBM, FLOPs et interconnexions déterminent l’échelle atteignable et la stabilité des performances. Le tableau ci-dessous compare les quatre puces sur ces critères, avant une analyse plus détaillée. Les données sont issues des fiches techniques officielles et de benchmarks récents.

| Critère | TPU v6e Trillium | AMD MI300X | NVIDIA H100 Hopper | NVIDIA B200 Blackwell |
|---|---|---|---|---|
| Mémoire par puce | 32 GB HBM | 192 GB HBM3 | 80/94 GB HBM3 (selon variante) | 192 GB HBM3e |
| Bande passante mémoire | 1600 GB/s | 5300 GB/s | ~3,35 TB/s (SXM) | 8 TB/s (par puce estimée) |
| Perf max (BF16/FP8) | 918 TFLOPs BF16 / puce | 2,61 PFLOPs FP8 (sparse) | ~4 PFLOPs FP8 | 72 PFLOPs FP8 (DGX 8x entraînement) |
| Interconnexion | 3200 Gbps ICI (2D torus) | Infinity Fabric | NVLink 900 GB/s | NVLink 14,4 TB/s agrégé (DGX) |
| Puissance (TBP/système) | Non spécifié / 234,9 PFLOPs pod 256 | 750 W / OAM | 700 W | ~14,3 kW DGX 8x |
Mémoire HBM et bande passante critique
La mémoire haute bande passante HBM est essentielle pour charger les LLM sans créer de goulots d’étranglement. Le TPU v6e double sa capacité à 32 GB HBM par puce par rapport au v5e, avec 1600 GB/s de bande passante. Ce niveau couvre les besoins d’inférence ciblée, mais reste modeste face aux GPU concurrents pour les modèles très volumineux.
Le MI300X impressionne avec 192 GB HBM3 unifiée et 5300 GB/s, ce qui lui permet de contenir des modèles géants sur un seul GPU sans recourir à des techniques complexes de sharding. Dans un cluster 8x, la capacité atteint environ 1,5 TB, dépassant souvent les configurations NVIDIA en densité mémoire brute.
Le H100 propose 80 à 94 GB de HBM3 selon la variante, tandis que le B200 passe à 192 GB HBM3e par puce, avec une bande passante agrégée de 64 TB/s dans un DGX 8x. La HBM3e, évolution de la HBM3, augmente la vitesse et bénéficie particulièrement aux scénarios d’inférence en FP4.
Puissance de calcul et formats de précision
Les performances se mesurent en PFLOPs ou TFLOPs selon la précision : BF16 pour l’entraînement, FP8 ou FP4 pour l’inférence. Le TPU v6e atteint 918 TFLOPs BF16 par puce, pour un total de 234,9 PFLOPs BF16 sur un pod de 256 unités. Son bloc SparseCore optimise en outre les calculs sur modèles clairsemés.
Le MI300X délivre 2,61 PFLOPs FP8 avec sparsité, ce qui le place au niveau des meilleures solutions pour des charges HPC et IA mixtes. Son format OAM facilite aussi l’intégration dans des châssis serveurs denses déjà standardisés chez les hyperscalers.
Le B200 domine en configuration DGX avec 72 petaFLOPS FP8 en entraînement et 144 petaFLOPS FP4 en inférence dans un système 8x. Le H100 reste solide autour de 4 PFLOPs FP8 par puce, mais Blackwell multiplie les performances sur les formats basse précision utilisés par les LLM récents.
Interconnexions et scalabilité des pods
Les liens entre puces déterminent l’efficacité des architectures multi-accélérateurs. Le TPU v6e repose sur une interconnexion ICI à 3200 Gbps en topologie 2D torus, pensée pour des pods massifs tout en contenant la latence entre nœuds.
Le MI300X s’appuie sur Infinity Fabric pour agréger jusqu’à huit GPU au sein d’un même serveur. NVIDIA conserve toutefois un avantage sur ce terrain avec NVLink : le H100 atteint 900 GB/s bidirectionnels par GPU, tandis que le B200 grimpe à 14,4 TB/s agrégés en DGX via NVLink Switch, ce qui facilite le scaling quasi linéaire sur les très grands modèles.
Innovations hardware spécifiques
Trillium introduit SparseCore pour accélérer les calculs sparses des LLM, en complément des unités matricielles classiques. Le MI300X mise sur CDNA 3 et une mémoire unifiée pour fusionner IA et HPC sur la même plateforme. Blackwell apporte des matrices systoliques dérivées de Hopper mais optimisées pour les nouveaux formats de précision, tandis que le H100 a posé les bases avec son Transformer Engine, déjà largement exploité par les frameworks modernes.
Performances réelles issues des benchmarks MLPerf
Les chiffres annoncés par les fabricants se confrontent aux résultats MLPerf Training et Inference, qui mesurent débit en tokens/s sur Llama 70B, latence TTFT et efficacité de mise à l’échelle multi-GPU. En novembre 2025, ces benchmarks confirment les écarts observés sur l’inférence de LLM et orientent clairement le choix des plateformes pour la production.
Débit en inférence sur modèles Llama 70B
Sur Llama 2 70B, le B200 annonce jusqu’à 4x le débit du H100 en configuration single ou multi-GPU, ce qui en fait la plateforme la plus agressive pour les workloads d’IA générative grand public. L’AMD MI300X atteint environ 74 % du H200 (variante du H100) en single-GPU, et dépasse le H100 d’environ 7 % sur Llama 2 70B selon les scénarios.
Le TPU v6e est optimisé pour le débit en batch à faible concurrence, typique des API dédiées à quelques gros clients. Le H100 conserve un net avantage pour le haut débit multi-utilisateur, très recherché dans les clouds publics européens.
Latence et temps de premier jeton TTFT
La latence est décisive pour les chatbots et assistants interactifs. Le B200 affiche une latence d’environ 2,40 ms en 8-GPU, la plus basse des plateformes testées. Le MI300X enregistre une latence supérieure de 37 à 75 % par rapport au H200 (environ 4,20 ms en 8-GPU), en grande partie à cause d’une pile logicielle ROCm encore jeune.
Le TPU v6e se distingue par un TTFT proche de 0,76 s sur LLaMA 70B en faible concurrence, ce qui convient à des applications serveur dédiées. Les H100 et H200 se situent autour de 0,9 s dans des contextes multi-utilisateurs plus chargés.
Efficacité en mise à l’échelle multi-accélérateurs
La capacité de scaling quasi linéaire reste un critère majeur pour les hyperscalers. Les pods TPU de 256 puces montent à environ 234,9 PFLOPs, avec une architecture pensée pour limiter la perte d’efficacité au-delà de quelques dizaines de nœuds. Les systèmes DGX à base de B200 gèrent jusqu’à 1440 GB de mémoire totale en 8x, ce qui simplifie la répartition de modèles géants.
Le MI300X reste compétitif en configuration 8x, mais NVIDIA garde l’avantage en mise à l’échelle horizontale grâce à NVLink et à son écosystème réseau, plus répandu dans les grands data centers européens.
Autonomie et consommation en contexte réel
L’efficacité énergétique devient un critère déterminant en Europe, sous pression réglementaire et budgétaire. Le TPU v6e réduit le TCO via un coût par heure attractif et une consommation contenue par unité de calcul. Le MI300X, avec un TBP de 750 W en OAM, reste dans une enveloppe jugée acceptable pour des serveurs haut de gamme.
Un système DGX à base de B200 peut monter à 14,3 kW au maximum pour huit GPU, mais la performance par dollar et par watt est optimisée pour les acteurs qui visent un volume massif d’inférence ou d’entraînement de LLM.
Écosystème logiciel et valeur économique décisive
L’expérience réelle des équipes IA dépend autant du matériel que de la couche logicielle : maturité de CUDA face à ROCm, outillage autour de JAX ou TensorFlow, et disponibilité des bibliothèques d’optimisation LLM. Ajoutés aux prix catalogue et au TCO, ces facteurs pèsent lourd dans les arbitrages de 2025.

Maturité des piles : CUDA, ROCm et JAX
NVIDIA domine nettement avec CUDA, PyTorch, TensorRT-LLM, vLLM déjà pleinement optimisés sur H100 et B200. La suite AI Enterprise garantit en outre une portabilité facilitée entre clouds publics et infrastructures sur site, ce qui séduit les grandes entreprises.
AMD ROCm progresse sur le MI300X, mais les latences observées dans plusieurs benchmarks signalent une maturité encore incomplète. Les déclinaisons de vLLM pour ROCm apparaissent cependant, améliorant progressivement le support logiciel et la disponibilité des optimisations spécifiques.
Le MI300X reste freiné par une pile logicielle moins aboutie que l’écosystème NVIDIA.
Extrait de benchmarks MLPerf publiés en novembre 2025
Prix unitaires, cloud et performance/dollar
Le H100 se négocie généralement entre 25 800 € et 34 400 € (30–40k USD) selon les volumes et configurations. Le MI300X tourne autour de 8 600 € (environ 10k USD), nettement plus abordable pour les acteurs sensibles au CAPEX. Le B200 en SXM 192 GB est annoncé entre 38 700 € et 43 000 €, positionné sur le segment très haut de gamme. Le TPU v6e est facturé autour de 2,32 €/h par unité cloud dans l’écosystème Google Cloud.
Sur certains workloads spécifiques, le TPU v6e offrirait jusqu’à 4x meilleure performance/dollar que le H100, à condition d’accepter le verrouillage à la plateforme Google. Le MI300X se montre rentable à grande échelle pour les clouds qui investissent dans la montée en maturité de ROCm et capitalisent sur son meilleur ratio mémoire/prix.
Coût total de possession TCO
Le TCO intègre le prix d’achat, l’énergie, la densité de rack et les coûts d’exploitation. Le TPU v6e se démarque par une efficacité énergétique élevée qui abaisse les coûts opérationnels sur la durée des contrats. Le B200 compense une consommation élevée par un gain massif de performance, ce qui réduit le coût par requête sur les services d’IA générative très fréquentés.
Avantages concurrentiels et verdict par usage
Le TPU v6e apparaît comme le meilleur choix pour une inférence économique sur Google Cloud, notamment pour les acteurs déjà engagés dans l’écosystème JAX ou TensorFlow. Le MI300X s’impose comme une option budgétaire solide pour les hyperscalers prêts à investir dans l’outillage ROCm. Le H100 demeure le standard polyvalent, stable et largement supporté. Le B200 prend l’avantage sur les workloads d’inférence et de formation les plus ambitieux en 2025.
Pour les acteurs européens, la stratégie la plus répandue consiste à privilégier NVIDIA pour la richesse de son écosystème, à considérer AMD pour contenir les coûts sans sacrifier la mémoire, et à recourir à Google lorsqu’un projet est déjà structuré autour de son cloud. Blackwell confirme la tendance vers une efficacité accrue sur les LLM, avec un gain de l’ordre de 4x par rapport au H100 sur certains scénarios.
Facilité d’usage et retours terrain
Sur le terrain, les équipes signalent que le format OAM du MI300X simplifie l’intégration mécanique dans les châssis existants et les opérations de maintenance. En revanche, les retours font état de bugs et de latences encore liés à ROCm, ce qui impose des équipes d’ingénierie plus expérimentées.
Côté NVIDIA, l’environnement CUDA limite les frictions : la majorité des frameworks arrivent déjà optimisés, et les équipes disposent de nombreux retours d’expérience. Le TPU v6e reste lié au verrou Google mais offre une expérience fluide avec JAX et TensorFlow, ce qui peut rassurer les organisations qui recherchent une solution clé en main dans le cloud.

















Laisser un commentaire
Vous devez vous connecter pour publier un commentaire.