Maia 200: de AI-versneller ontworpen voor gevolgtrekking

The Maia 200 AI accelerator chip with cables and equipment in the background.

Vandaag introduceren we met trots Maia 200, een revolutionaire inferentieversneller die is ontworpen om de economie van het genereren van AI-tokens dramatisch te verbeteren. Maia 200 is een krachtpatser op het gebied van AI-inferentie: een accelerator gebouwd op het 3nm-proces van TSMC met native FP8/FP4-tensorkernen, een opnieuw ontworpen geheugensysteem met 216 GB HBM3e bij 7 TB/s en 272 MB on-chip SRAM, plus dataverplaatsingsmotoren die enorme modellen aangedreven, snel en optimaal benut houden. Dit maakt Maia 200 het best presterende first-party silicium van alle hyperscalers, met FP4-prestaties die drie keer hoger zijn dan die van Amazon’s derde generatie Trainium en FP8-prestaties hoger dan die van Google’s zevende generatie TPU. Maia 200 is ook het meest efficiënte gevolgtrekkingssysteem dat Microsoft ooit heeft geïmplementeerd, met 30% betere prestaties per dollar dan de nieuwste generatie hardware in ons huidige wagenpark.

Maia 200 maakt deel uit van onze heterogene AI-infrastructuur en zal meerdere modellen bedienen, waaronder de nieuwste GPT-5.2-modellen van OpenAI, wat een prestatie-per-dollar voordeel oplevert voor Microsoft Foundry en Microsoft 365 Copilot. Het Microsoft Superintelligence-team zal Maia 200 gebruiken voor het genereren van synthetische gegevens en versterkend leren om de interne modellen van de volgende generatie te verbeteren. Voor gebruiksscenario’s van synthetische datapijplijnen helpt het unieke ontwerp van de Maia 200 de snelheid te versnellen waarmee domeinspecifieke gegevens van hoge kwaliteit kunnen worden gegenereerd en gefilterd, waardoor downstream-training wordt gevoed met frissere, meer gerichte signalen.

Maia 200 wordt ingezet in onze datacenterregio Centraal-Amerika nabij Des Moines, Iowa, terwijl datacenterregio 3 in West-Amerika nabij Phoenix, Arizona binnenkort beschikbaar komt en toekomstige regio’s zullen volgen. Maia 200 integreert naadloos met Azure, en we geven een preview van de Maia SDK met een complete set tools om modellen voor Maia 200 te bouwen en te optimaliseren. Het bevat een complete set functies, waaronder PyTorch-integratie, een Triton-compiler en een geoptimaliseerde kernelbibliotheek, en toegang tot de Maia-programmeertaal op laag niveau. Dit geeft ontwikkelaars indien nodig een fijnmazige controle, terwijl het model eenvoudig kan worden geporteerd naar heterogene hardwareversnellers.

Ontworpen voor AI-gevolgtrekking

Elke Maia 200-chip is gemaakt volgens het geavanceerde 3-nanometerproces van TSMC en bevat meer dan 140 miljard transistors. De chip is op maat ontworpen voor grootschalige AI-workloads en levert tegelijkertijd efficiënte prestaties per dollar. Op beide fronten is de Maia 200 gebouwd om uit te blinken. Het is ontworpen voor nieuwere modellen die verwerking met lage precisie gebruiken, waarbij elke Maia 200-chip meer dan 10 petaFLOPS levert bij 4-bit precisie (FP4) en meer dan 5 petaFLOPS bij 8-bit prestaties (FP8), allemaal binnen een 750W TDP SoC-behuizing. Praktisch gezien kan de Maia 200 moeiteloos de grootste modellen van vandaag aan, met voldoende hoofdruimte voor nog grotere modellen in de toekomst.

Cruciaal is dat FLOPS niet het enige ingrediënt zijn voor snellere AI. Voedingsgegevens zijn net zo belangrijk. Maia 200 pakt dit knelpunt aan met een opnieuw ontworpen geheugensubsysteem. Het Maia 200-geheugensubsysteem richt zich op gegevenstypen met een hoge nauwkeurigheid, een gespecialiseerde DMA-engine, on-die SRAM en een gespecialiseerde NoC-structuur voor gegevensverplaatsing met hoge bandbreedte, waardoor de tokentransmissiesnelheid wordt verhoogd.

Geoptimaliseerde kunstmatige intelligentiesystemen

Op systeemniveau introduceert Maia 200 een nieuw opschaalbaar netwerkontwerp met twee niveaus, gebouwd op standaard Ethernet. Een aangepaste transportlaag en strak geïntegreerde NIC leveren prestaties, hoge betrouwbaarheid en aanzienlijke kostenvoordelen zonder afhankelijk te zijn van eigen fabrics.

Elke versneller vertoont:

2,8 TB/s bidirectionele specifieke opschalingsbandbreedte

Voorspelbare, krachtige collectieve operaties op clusters van maximaal 6.144 versnellers

Deze architectuur biedt schaalbare prestaties voor dichte inferentieclusters, terwijl het stroomverbruik en de totale TCO voor uw wereldwijde Azure-vloot worden verminderd.

Binnen elke lade zijn vier Maia-accelerators volledig verbonden met directe, ongeschakelde verbindingen, waardoor lokale communicatie met hoge bandbreedte in stand wordt gehouden voor optimale inferentie-efficiëntie. Dezelfde communicatieprotocollen worden gebruikt voor intra-rack- en inter-rack-netwerken met behulp van het Maia AI-transportprotocol, waardoor naadloze schaalbaarheid tussen knooppunten, racks en acceleratorclusters met minimale netwerkhops mogelijk wordt. Deze uniforme structuur vereenvoudigt de planning, verbetert de flexibiliteit van de werklast en vermindert de verspilling van capaciteit, terwijl consistente prestaties en kostenefficiëntie op cloudschaal behouden blijven.

Een cloud-native benadering van ontwikkeling

Een van de fundamentele principes van de siliciumontwikkelingsprogramma’s van Microsoft is om een zo groot mogelijk deel van het end-to-end-systeem te valideren voordat het silicium definitief beschikbaar komt.

Een geavanceerde pre-siliciumomgeving heeft de Maia 200-architectuur vanaf de vroegste stadia geleid, waarbij de reken- en communicatiemodellen van LLM’s met hoge betrouwbaarheid zijn gemodelleerd. Deze eerste co-ontwikkelomgeving stelde ons in staat om silicium, netwerken en systeemsoftware als één geheel te optimaliseren, lang vóór het eerste silicium.

We hebben de Maia 200 ook vanaf het begin ontworpen voor snelle en continue beschikbaarheid in het datacenter, waarbij we een vroege validatie van enkele van de meest complexe systeemelementen hebben ontwikkeld, waaronder het backend-netwerk en onze tweede generatie vloeistofgekoelde warmtewisselaar met gesloten lus. Native integratie met het Azure-besturingsvlak biedt mogelijkheden op het gebied van beveiliging, telemetrie, diagnostiek en beheer op zowel chip- als rackniveau, waardoor de betrouwbaarheid en uptime voor productiekritieke AI-workloads worden gemaximaliseerd.

Als resultaat van deze investeringen draaiden AI-modellen binnen enkele dagen nadat het eerste verpakte onderdeel arriveerde op Maia 200-silicium. De tijd tussen de eerste siliciumimplementatie en de eerste implementatie van een datacenterrack werd teruggebracht tot minder dan de helft van die van vergelijkbare AI-infrastructuurprogramma’s. En deze end-to-end-aanpak, van chip tot software tot datacenter, vertaalt zich rechtstreeks in een hogere benutting, snellere productietijden en blijvende verbeteringen in de prestaties per dollar en per watt op cloudschaal.

Meld u aan voor de Maia SDK-preview

Het tijdperk van grootschalige AI is nog maar net begonnen en de infrastructuur zal bepalen wat mogelijk is. Ons Maia AI-acceleratorprogramma is ontworpen voor meerdere generaties. Terwijl we Maia 200 in onze wereldwijde infrastructuur inzetten, ontwerpen we al voor toekomstige generaties, en we verwachten dat elke generatie voortdurend nieuwe maatstaven zal stellen voor wat mogelijk is en steeds betere prestaties en efficiëntie zal leveren voor de meest kritische AI-workloads.

Vandaag nodigen we ontwikkelaars, AI-startups en academici uit om vroege modellering en werklastoptimalisatie te gaan verkennen met de nieuwe Maia 200 software development kit (SDK). De SDK bevat een Triton-compiler, ondersteuning voor PyTorch, programmeren op laag niveau in NPL, en een Maia-simulator en kostencalculator om de efficiëntie vroeg in de levenscyclus van de code te optimaliseren. Schrijf je hier in voor de preview.

Bekijk meer foto’s, video’s en bronnen op onze Maia 200-site en lees meer details.

Scott Guthrie is verantwoordelijk voor grootschalige cloud computing-oplossingen en -diensten, waaronder Azure, het cloud computing-platform van Microsoft, generatieve kunstmatige intelligentie-oplossingen, data-, informatie- en cyberbeveiligingsplatforms. Deze platforms en diensten helpen organisaties over de hele wereld bij het oplossen van urgente uitdagingen en het stimuleren van transformatie op de lange termijn.

. Bedenk niets nieuws. Schrijf niet in een andere taal. Praat niet over de auteur van de inhoud. Richt je op de inhoud, niet op andere pagina’s, zoals privacybeleid, cookiebeleid of andere. Wees uitgebreid bij het herschrijven: minstens 300 woorden. Vertaal ook geen merken, producten of bedrijfsnamen.

BRON