Google dévoile les TPU 8t et 8i : les super‑puces qui promettent de propulser les agents IA vers l’infini (voici pourquoi)

Global News

il y a 15 heures

TPU 8t et 8i : Google plaide pour une infrastructure IA taillée pour l’ère des « agents »

Lors de son événement Cloud Next, Google a levé le voile sur deux nouvelles générations de puces dédiées à l’intelligence artificielle : les TPU 8t et TPU 8i. Présentées comme la réponse technique à la montée en puissance des « agents » IA — ces systèmes capables d’exécuter des tâches complexes de façon autonome et parallèle — ces unités de traitement promettent des sauts spectaculaires de performances tout en améliorant l’efficacité énergétique. Pour les acteurs qui développent ou exploitent des modèles de grande taille (dont Gemini), ces annonces redessinent l’horizon de la puissance de calcul disponible.

Deux puces, deux métiers : entraînement vs. inférence

Google distingue clairement deux usages avec ces TPU : l’entraînement massif et l’inférence à haute concurrence.

TPU 8t : conçue pour l’entraînement (training). C’est la puce la plus « musclée », pensée pour assembler des superpods immenses et accélérer la phase d’apprentissage des modèles. Un superpod peut accueillir jusqu’à 9 600 puces TPU 8t, offrant théoriquement 121 ExaFlops — soit environ quatre fois la capacité de la génération Ironwood qu’elle remplace.

TPU 8i : optimisée pour l’inférence, c’est‑à‑dire la phase où les modèles répondent aux requêtes des utilisateurs ou pilotent des agents. L’accent est mis sur la latence, la mémoire rapide et la capacité à servir des milliers de requêtes en parallèle.

Performances et innovations matérielles

Les gains techniques annoncés sont importants et reposent sur plusieurs leviers :

Bandes passantes inter‑puces doublées (de 9,6 à 19,2 Tb/s) — réduction des goulets lors des échanges massifs de données entre éléments d’un superpod.

Réseau interne de 400 Gb/s par nœud — facteur clé pour l’échelle et la distribution des charges.

TPU 8i reçoit 288 Go de HBM et 384 Mo de SRAM par puce, triplant la mémoire rapide par rapport à la génération précédente : un atout pour maintenir les contextes d’agents IA en mémoire et réduire les allers‑retours coûteux.

Efficacité énergétique améliorée : gestion dynamique de l’alimentation pour adapter la consommation à la charge en temps réel, et performances par watt annoncées multipliées par deux par rapport à Ironwood.

Échelle industrielle : superpods et modularité

Google a pensé ces TPU pour un déploiement massif. Les superpods — grappes de milliers de puces interconnectées — permettent d’atteindre des capacités d’entraînement auparavant réservées à quelques acteurs. L’augmentation de la taille des superpods et de la bande passante devrait réduire les temps d’entraînement des modèles de très grande taille et faciliter l’expérimentation à l’échelle des architectures agentiques complexes (multi‑tâches, multi‑modalité, chaînes de raisonnement).

Impacts pour les modèles « agentiques »

Pourquoi ces puces sont‑elles censées changer la donne pour les agents IA ? Les agents fonctionnent par composition : plusieurs sous‑modules (planification, mémoire à long terme, apprentissage en ligne, exécution d’actions) doivent coopérer, souvent en parallèle, pour accomplir des tâches complexes. Cette architecture impose trois exigences :

Capacité mémoire élevée et accès rapide pour conserver et remettre en contexte l’état de multiples agents ;

Bande passante et latences faibles pour synchroniser les modules répartis sur des nœuds différents ;

Efficacité énergétique pour rendre ces traitements soutenables économiquement à grande échelle.

Les TPU 8t et 8i répondent explicitement à ces exigences : plus de mémoire HBM pour l’inférence, interconnexions plus rapides pour l’entraînement distribué et gestion de la consommation pour opérer à l’échelle sans multiplier les coûts énergétiques de façon proportionnelle.

Calendrier et disponibilité

Google annonce une disponibilité commerciale d’ici la fin de 2026. Les puces seront intégrées aux infrastructures Cloud de Google et mises à disposition des équipes internes pour Gemini, mais aussi proposées à des clients tiers via les offres Cloud. Cette stratégie relève d’une double logique : renforcer l’attractivité du cloud Google pour les développeurs IA et garantir à Google le contrôle de l’écosystème d’entraînement des modèles de nouvelle génération.

Conséquences pour l’écosystème IA

Plusieurs effets devraient se produire à moyen terme :

Accélération des cycles d’entraînement : des itérations plus rapides pour construire, tester et affiner des architectures complexes ;

Réduction des coûts unitaires d’entraînement par performance, rendant accessibles des expérimentations auparavant trop coûteuses ;

Renforcement de la compétition entre fournisseurs de cloud et de puces (NVIDIA, AMD, Cerebras, etc.), poussant à des optimisations systèmes (software/hardware co‑design).

Questions et limites à garder en tête

Pour autant, tout n’est pas résolu par l’arrivée de nouvelles TPU :

La dépendance à quelques fournisseurs d’infrastructure redistribue le pouvoir dans l’écosystème IA — un enjeu stratégique et géopolitique ;

L’efficacité annoncée sur le papier doit encore être corroborée dans des benchmarks indépendants en conditions réelles d’entraînement et d’inférence ;

Le coût total (capex + opex) de l’industrialisation sur ces superpods reste une inconnue pour beaucoup d’équipes et d’entreprises.

Que surveiller maintenant ?

Les premiers retours de sociétés et de laboratoires ayant accès aux TPU 8t/8i (benchmarks d’entraînement et mesures de latence en production).

Les évolutions tarifaires des offres cloud et la concurrence des alternatives matérielles (GPU haut de gamme, solutions custom).

L’impact sur la gouvernance et la souveraineté des données : qui héberge quoi, et à quelles conditions ?

Avec les TPU 8t et 8i, Google parie sur une infrastructure taillée pour des agents toujours plus puissants et distribués. La promesse technique est solide : plus de mémoire, plus de bande passante, plus d’efficacité. Reste à voir si ces avancées matérielles se traduiront rapidement par des modèles d’IA plus sûrs, plus utiles et réellement déployables à grande échelle — ou si elles alimenteront une nouvelle phase d’accélération où la capacité de calcul restera l’apanage de quelques acteurs majeurs.