Onbegrensde schaal: architectuur van Azure's AI-superfabriek

An aerial shot of the Fairwater AI datacenter near Atlanta, Georgia

Vandaag onthullen we de volgende Azure AI-datacenterlocatie van Fairwater in Atlanta, Georgia. Dit speciaal gebouwde datacenter is verbonden met onze eerste locatie in Fairwater, Wisconsin, eerdere generaties AI-supercomputers en de grotere mondiale datacentervoetafdruk van Azure om ’s werelds eerste AI-superfabriek op planeetschaal te creëren. Nu de rekenkracht dichterbij is dan ooit, is elke Fairwater-locatie gebouwd om efficiënt te voldoen aan de ongekende vraag naar AI-gestuurd computergebruik, de grenzen van modelintelligentie te verleggen en elke persoon en organisatie op de planeet in staat te stellen meer te bereiken.

Om aan deze vraag te voldoen, hebben we de manier waarop we AI-datacenters ontwerpen en de systemen die we daarin beheren opnieuw uitgevonden. Fairwater wijkt af van het traditionele cloud-datacentermodel en maakt gebruik van één enkel plat netwerk dat honderdduizenden van de nieuwste NVIDIA GB200- en GB300-GPU’s kan integreren in een enorme supercomputer. Deze innovaties zijn het product van tientallen jaren ervaring op het gebied van datacenter- en netwerkontwerp, evenals de lessen die zijn geleerd uit de ondersteuning van enkele van de grootste AI-trainingsinspanningen ter wereld.

Hoewel het ontwerp van het Fairwater-datacenter zeer geschikt is voor het trainen van de volgende generatie grensmodellen, is het ook gebouwd met het oog op fungibiliteit. Training is geëvolueerd van een enkele monolithische taak naar een reeks werklasten met verschillende vereisten (zoals pre-training, verfijning, versterkend leren en het genereren van synthetische gegevens). Microsoft heeft een speciale AI WAN-backbone geïmplementeerd om elke Fairwater-locatie te integreren in een groter elastisch systeem dat dynamische toewijzing van verschillende AI-workloads mogelijk maakt en het GPU-gebruik van het gecombineerde systeem maximaliseert.

Hieronder bekijken we enkele van de opwindende technische innovaties die Fairwater ondersteunen, van de manier waarop we datacenters bouwen tot de netwerken binnen en tussen locaties.

Maximale rekendichtheid

Moderne AI-infrastructuren worden steeds meer beperkt door de wetten van de natuurkunde. De snelheid van het licht vertegenwoordigt tegenwoordig een fundamenteel knelpunt in ons vermogen om versnellers, rekenkracht en opslag nauw te integreren met een performante latentie. Fairwater is ontworpen om de rekendichtheid te maximaliseren, de latentie binnen en tussen racks te minimaliseren en de systeemprestaties te maximaliseren.

Een van de belangrijkste factoren voor de rijdichtheid is het verbeteren van grootschalige koeling. AI-servers in de datacenters van Fairwater zijn verbonden met een koelsysteem voor de hele faciliteit dat is ontworpen voor een lange levensduur, met een gesloten kringloop waarbij vloeistof na de eerste vulling continu wordt hergebruikt zonder verdamping. Het water dat bij de eerste vulling wordt gebruikt, is gelijk aan het water dat twintig huishoudens per jaar verbruiken en wordt alleen vervangen als de waterchemie aangeeft dat dit nodig is (het is ontworpen voor meer dan zes jaar), waardoor het uiterst efficiënt en duurzaam is.

Vloeistofkoeling zorgt ook voor een veel hogere warmteoverdracht, waardoor we het vermogen op rack- en rijniveau kunnen maximaliseren (~140 kW per rack, 1.360 kW per rij) om de verwerking zo dicht mogelijk binnen het datacenter te concentreren. State-of-the-art koeling helpt ons ook het gebruik van deze rekendichtheid bij stationaire activiteiten te maximaliseren, waardoor grote trainingstaken met hoge prestaties op schaal kunnen worden uitgevoerd. Nadat de warmte door een systeem van koude plaatpaden door de GPU-vloot is gegaan, wordt deze afgevoerd door een van de grootste koelsystemen ter wereld.

Directe vloeistofkoeling op rackniveau.

Een andere manier waarop we de rekendichtheid bevorderen, is door het ontwerp van een datacenter met twee verdiepingen. Veel AI-workloads zijn erg gevoelig voor latentie, wat betekent dat de kabellengte een aanzienlijke invloed kan hebben op de clusterprestaties. Elke GPU bij Fairwater is verbonden met elke andere GPU, dus de twee verdiepingen tellende datacenterconstructie maakt rackplaatsing in drie dimensies mogelijk om de kabellengte te minimaliseren, wat op zijn beurt de latentie, bandbreedte, betrouwbaarheid en kosten verbetert.

Een afbeelding van een dubbeldekkernetwerkarchitectuur — Dubbeldekker netwerkarchitectuur.

Hoge beschikbaarheid en lage energiekosten

We verleggen de grenzen door dit computersysteem te voorzien van betrouwbare, kosteneffectieve kracht. De locatie in Atlanta is gekozen met het oog op de veerkracht van elektriciteit en is in staat om 4×9 beschikbaarheid te realiseren tegen een prijs van 3×9. Door te zorgen voor een hoog beschikbare netstroom kunnen we ook afzien van traditionele veerkrachtbenaderingen voor de GPU-vloot (zoals opwekking op locatie, UPS-systemen en distributie via twee kabels), wat kostenbesparingen voor klanten en een snellere time-to-market voor Microsoft mogelijk maakt.

We hebben ook met onze industriële partners samengewerkt om gezamenlijk oplossingen voor energiebeheer te ontwikkelen om stroomfluctuaties als gevolg van grootschalige banen te verminderen, een groeiende uitdaging bij het handhaven van de netstabiliteit naarmate de vraag naar kunstmatige intelligentie toeneemt. Dit omvat een softwaregebaseerde oplossing die extra werklasten introduceert tijdens perioden van lage activiteit, een hardwaregebaseerde oplossing waarbij GPU’s hun eigen stroomdrempels opleggen, en een on-site energieopslagoplossing om stroomfluctuaties verder te maskeren zonder overtollige energie te gebruiken.

Geavanceerde accelerators en netwerksystemen

Het datacenterontwerp van Fairwater van wereldklasse wordt mogelijk gemaakt door speciaal gebouwde servers, geavanceerde AI-versnellers en nieuwe netwerksystemen. Elk Fairwater-datacenter draait op één samenhangend cluster van onderling verbonden NVIDIA Blackwell GPU’s, met een geavanceerde netwerkarchitectuur die op betrouwbare wijze kan schalen voorbij de traditionele Clos-netwerkbeperkingen met de nieuwste generatie switches (honderdduizenden GPU’s op één plat netwerk). Dit vereiste innovatie op het gebied van opschalingsnetwerken, opschalingsnetwerken en netwerkprotocollen.

Wat betreft schaalbaarheid biedt elk rack met AI-versnellers plaats aan maximaal 72 NVIDIA Blackwell GPU’s, verbonden via NVLink voor communicatie met ultralage latentie binnen het rack. Blackwell-accelerators bieden de hoogste rekendichtheid die momenteel beschikbaar is, met ondersteuning voor getalformaten met lage precisie, zoals FP4, om de totale FLOPS te verhogen en efficiënt geheugengebruik mogelijk te maken. Elk rack biedt 1,8 TB aan GPU-naar-GPU-bandbreedte, waarbij voor elke GPU meer dan 14 TB aan gepoold geheugen beschikbaar is.

Een afbeelding van dichtbevolkte GPU-racks met app-beheerde netwerken — Dichtbevolkte GPU-racks met app-gebaseerde netwerken.

Deze racks maken vervolgens gebruik van schaalbare netwerken om pods en clusters te creëren waarmee alle GPU’s kunnen functioneren als één supercomputer met een minimaal aantal hops. We bereiken dit met een op Ethernet gebaseerd, tweelaags backend-netwerk dat enorme clustergroottes ondersteunt met 800 Gbps GPU-naar-GPU-connectiviteit. Het vertrouwen op een groot Ethernet-ecosysteem en SONiC (Software for Open Network in the Cloud – ons besturingssysteem voor onze netwerkswitches) helpt ons ook om leverancierslock-in te voorkomen en de kosten te beheersen, omdat we standaardhardware kunnen gebruiken in plaats van eigen oplossingen.

We hebben ook samengewerkt met partners als OpenAI en NVIDIA om een revolutionair aangepast netwerkprotocol te definiëren – Multi-Path Reliable Connected (MRC) – om diepere controle en optimalisatie van netwerkpaden mogelijk te maken. Verbeteringen in het bijsnijden van pakketten, pakketspray en hoogfrequente telemetrie zijn belangrijke componenten van ons geoptimaliseerde AI-netwerk. Samen zorgen deze technologieën voor geavanceerde congestiecontrole, snelle detectie en hertransmissie en flexibele load-balancing, waardoor ultrabetrouwbare prestaties met lage latentie voor moderne AI-workloads worden gegarandeerd.

Planetaire schaal

Ondanks deze innovaties overstijgt de computerbehoefte voor grote trainingsbanen (nu gemeten in biljoenen parameters) snel de kracht- en ruimtebeperkingen van één enkele faciliteit. Om aan deze behoeften te voldoen, hebben we een speciaal AI WAN optisch netwerk gecreëerd om de op- en uitbreidingsnetwerken van Fairwater uit te breiden. Door gebruik te maken van onze schaalgrootte en tientallen jaren aan grootschalige ervaring hebben we vorig jaar in de Verenigde Staten ruim 120.000 nieuwe kilometers glasvezel geleverd, waardoor het bereik en de betrouwbaarheid van het AI-netwerk landelijk is vergroot.

Met deze krachtige, veerkrachtige ruggengraat kunnen we meerdere generaties supercomputers rechtstreeks verbinden tot een AI-superfabriek die de mogelijkheden van een enkele locatie op geografisch diverse locaties overtreft. Hierdoor kunnen AI-ontwikkelaars gebruik maken van ons bredere netwerk van Azure AI-datacenters, waarbij verkeer wordt gesegmenteerd op basis van hun behoeften over op- en uitbreidbare netwerken binnen een site, maar ook tussen sites over het hele continent die het AI WAN bestrijken.

Dit is een aanzienlijke verandering ten opzichte van het verleden, toen al het verkeer via het schaalbare netwerk moest reizen, ongeacht de werklastvereisten. Het biedt klanten niet alleen een geschikt netwerk op een gedetailleerder niveau, maar helpt ook bij het creëren van fungibiliteit om de flexibiliteit en het gebruik van onze infrastructuur te maximaliseren.

Alles op een rij zetten

De nieuwe locatie van Fairwater in Atlanta vertegenwoordigt de volgende stap voorwaarts in de Azure AI-infrastructuur en weerspiegelt onze ervaring met het beheren van de grootste AI-trainingsbanen ter wereld. Het combineert baanbrekende innovaties op het gebied van computerdichtheid, duurzaamheid en netwerksystemen om efficiënt te voldoen aan de enorme vraag naar rekenkracht waarvan we getuige zijn. Het integreert ook diep met andere AI-datacenters en het bredere Azure-platform en vormt zo de eerste AI-superfabriek ter wereld. Samen bieden deze innovaties een flexibele, geschikte infrastructuur die het volledige spectrum van moderne AI-workloads kan bedienen en elke persoon en organisatie op de planeet in staat stelt meer te bereiken. Voor onze klanten betekent dit een eenvoudigere integratie van AI in elke workflow en de mogelijkheid om innovatieve AI-oplossingen te creëren die voorheen onbereikbaar waren.

Lees hier meer over hoe Microsoft Azure u kan helpen AI te integreren om uw ontwikkelingslevenscycli te vereenvoudigen en te versterken.

Scott Guthrie hij is verantwoordelijk grootschalige cloud computing-oplossingen en -diensten, waaronder Azure, het cloud computing-platform van Microsoft, generatieve kunstmatige intelligentie-oplossingen, dataplatforms en cyber- en cyberbeveiliging. Deze platforms en diensten helpen

BRON