Twee chips voor spionagetijdperk

Speciaal ontworpen voor Gemini, voor iedereen toegankelijk

Deze TPU van de achtste generatie is het nieuwste resultaat van onze co-designfilosofie, waarbij elke specificatie is ontwikkeld om de grootste uitdagingen van AI aan te pakken.

De Boardfly-topologie is speciaal ontworpen om te voldoen aan de communicatiebehoeften van de meest geavanceerde redeneermodellen van vandaag.
De capaciteit van de TPU 8i SRAM is afgestemd op de KV-cachevoetafdruk van redeneermodellen op productieschaal.
De bandbreedtedoelstellingen van het Virgo Network-weefsel zijn afgeleid van de parallelle eisen van het trainen van biljoenen parameters.

Voor het eerst draaien beide chips op de Axion ARM CPU-host van Google, waardoor het hele systeem, en niet alleen de chip, geoptimaliseerd kan worden voor prestaties en efficiëntie.

Beide platforms ondersteunen native JAX, MaxText, PyTorch, SGLang en vLLM (de frameworks die al door ontwikkelaars worden gebruikt) en bieden bare metal-toegang, waardoor klanten directe toegang tot de hardware krijgen zonder de overhead van virtualisatie. Open source-bijdragen, waaronder MaxText- en Tunix-referentie-implementaties ter ondersteuning van versterkend leren, vormen sleutelpaden tussen capaciteit en productie-implementatie.

Ontwerp voor grootschalige energie-efficiëntie

In moderne datacenters is energie, en niet alleen de beschikbaarheid van chips, een bepalende factor. Om dit aan te pakken hebben we de efficiëntie van de hele stack geoptimaliseerd, met geïntegreerd energiebeheer dat het stroomverbruik dynamisch aanpast op basis van de actuele vraag. TPU 8t en TPU 8i bieden tot twee keer betere prestaties per watt dan de vorige generatie, Ironwood.

Efficiëntie bij Google is niet alleen een maatstaf op chipniveau; het is ook een inspanning die zich uitstrekt van silicium tot het datacenter. Zo hebben we bijvoorbeeld netwerkconnectiviteit geïntegreerd met verwerking op dezelfde chip, wat resulteert in aanzienlijk lagere energiekosten voor het verplaatsen van gegevens via de TPU-pod. Onze datacenters zijn ook mede ontworpen met onze TPU’s. We hebben hardware en software geïnnoveerd om onze datacenters in staat te stellen zes keer meer rekenkracht per eenheid elektriciteit te leveren dan vijf jaar geleden.

TPU 8t en TPU 8i gaan door op dit pad. Beide worden ondersteund door onze vloeistofkoelingstechnologie van de vierde generatie die prestatiedichtheden ondersteunt die luchtkoeling niet kan bereiken. Door de volledige stack, van de Axion-host tot de accelerator, in eigen beheer te hebben, kunnen we de energie-efficiëntie op systeemniveau optimaliseren op manieren die anders niet mogelijk zouden zijn als de host en de chip onafhankelijk van elkaar zouden worden ontworpen.

BRON