Versnel AI-clusters met Intel® Gaudi® 3 en Cisco Nexus 9000 AI Accelerators

Versnel Ethernet Native AI-clusters met Intel® Gaudi® 3 en Cisco Nexus 9000 AI Accelerators

Modere ondernemingen staan voor aanzienlike infrastructuuruitdagings, omdat groate taalmodellen (LLM’s) enorme hoeveelhede data moeten verwerke en verplaatsen vir sowel opleiding as afleiding. Nou dat selfs die mees gevorderde verwerkers beperk word deur die moontlikhede van hul ondersteunende infrastruktuur, het die behoefte aan robuuste netwerke met hoë bandwydte absoluut noodsaaklik geword. Vir organisasies wat hoëgehalte AI-werklas doeltreffend wil gebruik, is ’n skaalbare netwerkruggraat met lae latentie van kritieke belang om die gebruik van versnellers te maksimeer en die koste van kosbare, onaktiewe bronne te minimeer.

Cisco Nexus 9000-reeks skakelaars vir AI/ML-werklas

Cisco Nexus 9000-reeks-skakelaars lewer die skakelraamwerk met ’n hoë bereik en lae latentie wat vereis word vir AI/ML-werklas. Vir Intel® Gaudi® AI Accelerator 3-implementasies het Cisco spesifieke Nexus 9000-skakelaars en -konfigurasies gevalideer om optimale prestasie te waarborg.

Byvoorbeeld, die Nexus 9364E-SG2 (Afbeelding 1) is Cisco se vlagskip AI-netwerkskakelaar, aangedryf deur die Silicon One G200 ASIC. In ’n kompakte 2RU-vormfaktor bied dit:

64 800GbE-poorte met hoë digtheid (of 128 x 400GbE / 256 x 200GbE / 512 x 100GbE via breakout)

Totale bandwydte van 51,2 Tbps vir nie-blokkeerende stowwe met bladruggrane

256 MB gedeelde on-die pakketsbuffer wat krities is om die gesinkroniseerde verkeerspieke te absorbeer wat kenmerkend is vir kollektiewe operasies in die verspreide formasie

512 hoëgehalte argitektuur wat die aantal benodigde skakelniveaus verminder, die latentie verminder en die stofontwerp vereenvoudig

Klaar vir Ultra Ethernet: Cisco is een van die stigters van die Ultra Ethernet-konsortium (UEC) en Nexus 9000-skakelaars is versoenbaar met die nuwe UEC-spesifikasies

Figuur 1. Intel® Gaudi® AI Accelerator 3: Geoptimaliseerd vir skaalbaarheid en oop konnektiwiteit

Die Intel Gaudi 3 AI-versneller voorsien in die behoefte aan oop en skaalbare AI-stelsels. Dit is ontwerp om gevorderde datakampsprestasie te lewer vir AI-werklas, insluitend generatiewe toepassings soos LLM, diffusiemodelle en multimodale modelle. Die Intel Gaudi 3-versneller toon aansienlike verbeterings in vergelyking met vorige generasies en lewer tot 4x vinniger AI-berekeningsprestasie vir 16-bit Brain Floating Point (BF16)-werklaste en ’n 1,5x toename in geheuebandwydte in vergelyking met die Intel Gaudi 2-verwerker.

’n Belangrike onderskeidende faktor is die netwerkinfrastruktuur: elke Intel Gaudi 3 AI-versneller integreer 24 200GbE Ethernet-poorte, wat grootskaalse stelseluitbreiding met standaard Ethernet-protokolle ondersteun. Hierdie benadering elimineer die afhanklikheid van eiendomsreg netwerk tegnologieë en bied ’n dubbele netwerkbandwydte in vergelyking met die Intel Gaudi 2-versneller, wat organisasies in staat stel om naatloos klusters te skep van ’n paar tot ’n paar duisend knooppunte.

’n Geïntegreerde oplossing met hoë prestasie, skaalbaarheid en oopheid

Cisco Nexus 9364E-SG2-skakelaars en OSFP-800G-DR8-transceivers is gesertifiseer vir die ondersteuning van Intel Gaudi 3 AI-versnellers in skaalbare konfigurasies vir LLM-opleiding, afleiding en generatiewe AI-werklas.

Die belangrikste tegniese hoogtepunte van die gevalideerde argitektuur sluit in:

Vinnige, foutvrye konnektiwiteit: Die 256 x 200 Gbps-interafies op die Cisco Nexus 9364E-SG2-skakelaars maak ’n vinnige, foutvrye netwerkontwerp moontlik vir die onderlinge verbind van Intel Gaudi 3-versnellers

Lekvrye stof: Volledige ondersteuning vir RDMA via Converged Ethernet version 2 (RoCEv2) met Priority Flow Control (PFC) voorkom pakkietverlies as gevolg van kongestie, wat die voltooiingstye van verspreide take verbeter

Vereenvoudigde operasies: Met Nexus Dashboard kan jy Intel Gaudi 3 AI-versnellers konfigureer vir skaalbare netwerke met behulp van die geïntegreerde AI-raamwerktype. Dit bied ook templaat vir verdere aanpassing en ’n enkele operasionele platform vir alle netwerke wat toegang het tot ’n AI-kluster.

Cisco Intelligent Packet Flow om AI-verkeer te optimaliseer

AI-werklaste genereer verkeerspatrone wat verskil van tradisionele besigheidstoepassings: enorme, gesinkroniseerde stote, ‘olifantstroome’ en aanhoudende GPU-naar-GPU-kommunikasie wat konvensionele netwerkbenaderings kan oorweldig. Cisco pak hierdie uitdagings aan met Cisco Intelligent Packet Flow, ’n gevorderde verkeersbestuursraamwerk wat geïntegreer is in NX-OS.

Intelligent Packet Flow sluit meervoudige taakverdelingsstrategieë in wat ontwerp is vir AI-stowwe:

Dinamiese vragbalansering (vloeigebaseerd): Werklike verkeersverdeling gebaseer op telemetrie vir skakelgebruik

Vragbalansering per pakkie: Meerpaaie pakketspuitinge vir maksimale produktiwiteitseffektiwiteit

Kostegewigte meervoudige pad (WCMP): Intelligente padgewiging gekombineer met dinamiese taakverdeling (DLB) vir asimmetriese topologieë

Op beleid gebaseerde taakverdeling: Wijs spesifieke verkeersbestuursstrategieë toe aan gemengde werkvragte gebaseer op ACL’s, DHCP-merkings of RoCEv2-header, wat maatgemaakte effektiwiteit vir verskillende behoeftes skep

Hierdie funksies werk saam om die voltooiingstyd van die werk te minimeer– die kritiese maatstaf wat bepaal hoe vinnig jou AI-modelle oplei en hoe doeltreffend jou afleidingspyplyne reageer.

Uniforme operasies met Nexus Dashboard

Die wye implementering en benutting van ’n AI-infrastruktuur vereis sigbaarheid en ander funksies wat verder gaan as tradisionele netwerkmonitering. Cisco Nexus Dashboard dien as ’n gesentraliseerde bestuursplatform vir AI-stowwe en bied end-to-end RoCEv2-sigbaarheid en geïntegreerde templaat vir die opstelling van AI-stowwe.

Die belangrikste operasionele kenmerke van Cisco Nexus Dashboard sluit in:

Kongestie-analise: Werklike kongestieskoor, prioriteitsstatistieke vir vloei beheer en eksplisiete kongestiemeldings (PFC/ECN) en mikroburst-opsporing

Anomaliedetectie: Identifiseer proaktief prestasieknelpunte met voorgestelde oplossings

Sigbaarheid van AI-werk: End-to-end insig in AI-werklaste van netwerk tot GPU

Volhoubareheid-insigte: Monitering van energieverbruik en aanbevelings vir optimalisering
“Grootskaalse kunsmatige intelligensie vereis kragtige rekenaar doeltreffendheid en AI-netwerkstruktur. Die Intel® Gaudi® 3 AI-versneller gekombineer met Cisco Nexus 9000-skakeling bied ’n oop, geoptimeerde oplossing waarmee kliënte grootskaalse LLM-afleidingsklusters kan bou met koste-doeltreffende prestasie sonder kompromie.”
—Anil Nanduri, vise-president, get-to-market en AI-produkbestuur, Intel

’n Skaalbare, voldoenende en toekomsbestande infrastruktuur

Cisco Nexus 9000-skakelaars in kombinasie met Intel Gaudi 3 AI-versnellers bied ondernemings ’n veilige, oop en toekomsbestande rekenaar- en netwerkomgewing. Hierdie kombinasie van tegnologieë stel organisasies in staat om skaalbare, kragtige AI-klusters te implementeer wat voldoen aan die vereistes van huidige en opkomende werklaste.

Vir meer inligting of om te evalueer hoe hierdie verwysingsargitektuur aangepas kan word aan die behoeftes van jou organisasie, sien die spesifikasies vir Cisco Nexus 9300-reeks-skakelaars en Intel Gaudi 3 AI-versnellers.

Added resources:

¹ Intel, die Intel-logo en Gaudi is handelsmerke van Intel Corporation of sy filiale.

BRON