Google Cloud annonce ses TPU v8, un pour l’entraînement et un pour l’inférence

·

·

Scène de keynote Google Cloud Next à Las Vegas avec un intervenant devant de grands écrans montrant des visuels de puces TPU et de data centers, devant un large public.
Résumer cet article avec :

Google a officialisé mercredi, lors de Cloud Next 2026 à Las Vegas, sa huitième génération de TPU. Pour la première fois, le groupe sépare son offre en deux puces distinctes : le TPU 8t (Sunfish), optimisé pour l’entraînement des modèles de pointe, et le TPU 8i (Zebrafish), conçu pour l’inférence massive d’agents autonomes. Cette spécialisation réduit les arbitrages entre puissance brute et latence. Elle accélère aussi les cycles de développement de l’IA agentique.


À retenir

  • Google scinde ses TPU v8 en TPU 8t Sunfish (entraînement) et TPU 8i Zebrafish (inférence), dévoilés à Cloud Next 2026.
  • TPU 8t : 121 exaflops FP4 par superpod de 9 600 puces, Virgo Network capable de relier jusqu’à 1 million de puces sur plusieurs centres de données.
  • TPU 8i : 384 Mo de SRAM embarquée (x3 vs Ironwood), topologie Boardfly, baisse des coûts d’inférence de 80 %.
  • Transition vers les CPU Axion (architecture Arm), refroidissement liquide de 4e génération (x2 performance par watt).
  • Concept d’AI Hypercomputer : silicium sur mesure, Optical Circuit Switch (OCS), pile logicielle optimisée (JAX, TensorFlow, PyTorch/XLA).
  • Avantage à l’échelle face aux Nvidia Blackwell : scalabilité linéaire et coût par token plus bas pour de grands acteurs comme Anthropic.

La fin du compromis matériel : deux puces pour deux métiers distincts

Depuis des années, les équipes IA devaient composer avec une même puce pour des usages différents. Google sépare désormais nettement l’entraînement et l’inférence.

Ingénieur dans un data center examinant deux cartes accélératrices TPU distinctes, représentant les modèles 8t Sunfish et 8i Zebrafish de Google Cloud, avec des baies de serveurs en arrière-plan.
La séparation des TPU 8t et 8i marque la fin du compromis entre entraînement intensif et inférence à grande échelle.

Le TPU 8t Sunfish, taillé pour former les géants

Conçu avec Broadcom, le TPU 8t (Sunfish) cible l’entraînement des modèles de pointe. Un superpod de 9 600 puces délivre 121 exaflops en précision FP4. Le gain affiché doit réduire des entraînements qui prenaient des mois à quelques semaines.

Chaque puce intègre 216 Go de mémoire HBM3e avec une bande passante de 6,5 To/s. Le ratio prix/performance progresse de 2,8 fois par rapport à Ironwood (TPU v7). Pour les laboratoires qui dépensent des centaines de millions d’euros en calcul, l’écart est net.

Le TPU 8i Zebrafish, l’accélérateur de l’IA agentique

Le TPU 8i, développé avec MediaTek, répond à un besoin devenu central : exécuter des millions d’agents autonomes avec une latence minimale. Sa particularité tient à ses 384 Mo de SRAM embarquée, soit trois fois plus que la génération précédente.

Cette mémoire sur puce garde les poids du modèle sur le silicium et limite les allers-retours vers la HBM. Résultat : une consommation énergétique plus faible et une latence réduite. Google évoque une topologie réseau baptisée Boardfly, qui raccourcit le diamètre du réseau et améliore la latence de 50 %.

Sur le plan économique, l’effet annoncé est tout aussi marqué : une baisse des coûts d’inférence de 80 % par rapport à Ironwood. À budget égal, cela permet de servir plus de clients ou de déployer des essaims d’agents plus vastes.

Une architecture pensée à l’échelle du million de puces

Le point décisif n’est pas seulement la puce, mais la capacité à coordonner des clusters géants sans perdre en efficacité.

Allée d’un data center moderne avec deux rangées de baies de serveurs distinctes, symbolisant d’un côté les GPU Nvidia Blackwell et de l’autre les clusters TPU de Google Cloud.
La stratégie de Google mise sur l’efficacité systémique et la performance à l’échelle du datacenter face aux GPU Nvidia.

Virgo Network : passer du superpod au million de TPU

Google introduit le Virgo Network, une interconnexion qui permet de traiter jusqu’à un million de puces comme un cluster logique, même réparti sur plusieurs centres de données. Le dispositif s’appuie notamment sur des Optical Circuit Switch (OCS) pour accélérer le routage optique.

Cette approche tranche avec celle de Nvidia, plus centrée sur la puissance brute par GPU. Les TPU, des ASIC optimisés pour les multiplications de matrices denses, sont plus à l’aise sur les charges massives et prévisibles. Anthropic, par exemple, utilise déjà jusqu’à un million de TPU pour entraîner Claude.

CPU Axion et refroidissement liquide : l’intégration verticale

Autre changement majeur : Google abandonne les processeurs x86 sur ses nœuds TPU au profit de ses propres CPU Axion, fondés sur l’architecture Arm Neoverse N3. Chaque serveur TPU 8i double le nombre d’hôtes CPU pour mieux orchestrer les flux de données entre les puces.

Le système de refroidissement liquide de quatrième génération permet de doubler la performance par watt par rapport à Trillium. En Europe, où le Green Deal et la hausse des prix de l’énergie pèsent sur les infrastructures, cet argument compte.

AI Hypercomputer : quand le hardware, le réseau et le logiciel avancent ensemble

Tous ces éléments convergent vers le concept d’AI Hypercomputer porté par Google depuis plusieurs années. Il s’agit d’une pile optimisée qui associe silicium sur mesure, réseaux optiques, interconnexions haute performance et frameworks (JAX, TensorFlow, PyTorch avec XLA).

Cette intégration verticale offre une expérience différente de l’écosystème CUDA de Nvidia. Celui-ci reste plus polyvalent et bénéficie d’une communauté immense, mais les TPU prennent l’avantage dès qu’il faut passer à l’échelle, avec un coût par token souvent plus bas en production.

Face à Nvidia, Google choisit la voie de l’efficacité systémique

La question reste la même : les TPU peuvent-ils vraiment concurrencer la domination de Nvidia ?

Blackwell et Rubin contre la force du cluster

Les GPU Nvidia Blackwell (B200) gardent une avance en puissance brute par puce. La future génération Rubin devrait encore creuser l’écart à l’échelle du composant. Google ne cherche toutefois pas à gagner sur ce terrain.

Le groupe vise la performance au niveau du datacenter et de la flotte. Ses ASIC surpassent les GPU généralistes sur les opérations matricielles denses, qui représentent l’essentiel de la charge des grands modèles. Sur des clusters de plusieurs centaines de milliers de puces, l’avantage en coût total de possession devient déterminant.

Pourquoi les leaders de l’IA misent sur Google Cloud

Les chiffres avancés en prix/performance — x2,8 pour l’entraînement, x1,8 pour l’inférence — ne relèvent pas seulement du marketing. Ils réduisent le temps de mise sur le marché et améliorent les marges des startups comme des hyperscalers qui déploient des agents à grande échelle.

Dans l’ère de l’IA agentique, où des milliers d’agents doivent raisonner, appeler des outils et interagir en continu, la latence et le coût par inférence deviennent des goulots d’étranglement. Le TPU 8i est conçu pour les réduire.

Google ne cherche plus à copier Nvidia. Le groupe construit une alternative verticale, calibrée pour l’échelle, avec le TPU 8t Sunfish et le TPU 8i Zebrafish. Ses centres de données prennent des allures d’usines d’IA, plus rapides, plus sobres et moins coûteuses.


Sur le même Thème :

Laisser un commentaire

Trop d’infos IA ?

Inscrivez-vous à la newsletter pour recevoir un résumé hebdomadaire directement dans ta boite email (et rien d’autre)