Ethernet zonder compromis – benchmark van AI/ML -stof.

Vandaag de dag onderzoeken we hoe Ethernet zich verhoudt tot Infiniband in AI/ML-omgevingen, met een focus op hoe Cisco Silicon One ™ netwerkcongestie beheert en de prestaties voor AI/ML-workloads verbetert. Dit artikel benadrukt het belang van benchmarking en KPI-statistieken bij de evaluatie van netwerkoplossingen, met het Cisco Zeus-cluster uitgerust met 128 NVIDIA® H100 GPU’s en snij-edge congestiebeheertechnologieën zoals dynamische laadbalans en pakketverstrooiing.

Netwerkstandaard voor AI/ML-workloads

AI/ML-trainingsbelastingen veroorzaken repetitieve micro-congestie, die de netwerkbuffers zwaar belasten. GPU-naar-GPU-verkeer van Oost naar West tijdens de modelvorming vereist een verliesvrije netwerkstof. Infiniband was lange tijd de dominante technologie in HPC-omgevingen en recentelijk ook in AI/ML-omgevingen.

Ethernet is een volwassen alternatief, met geavanceerde functies die kunnen voldoen aan de strenge eisen van AI/ML- en Cisco Silicon-trainingen, waarbij belastingen worden geladen en congestie effectief wordt beheerd. We hebben besloten Cisco Silicon One te vergelijken met NVIDIA Spectrum-X™ en Infiniband.

Evaluatie van netwerkstofoplossingen voor AI/ML

Netwerkverkeersmodellen variëren afhankelijk van de grootte van het model, architectuur en parallelle technieken die worden gebruikt in versnelde training. Om AI/ML-netwerkstofoplossingen te evalueren, hebben we relevante referentieparameters en KPI-statistieken geïdentificeerd die belangrijke prestaties voor AI/ML-workloads en infrastructuren weergeven.

We hebben uitgebreide tests uitgevoerd om de prestaties te meten en specifieke statistieken te genereren voor AI/ML-workloads en infrastructuur. Voor deze tests hebben we het Zeus-cluster gebruikt, met toegewijde rug- en opslagcapaciteit en een netwerk van drie fasen met gesloten bladstof, gebouwd op Cisco Silicon en 128 Nvidia H100 GPU’s.

Figuur 1. Topologie van de cluster Zeus

We hebben een benchmarkingsuite ontwikkeld met behulp van open source en standaardtools uit de sector die worden verstrekt door NVIDIA en anderen. Onze benchmarkingsuite omvatte onder andere:

  • Benchmark voor Remote Direct Memory Access (RDMA), geconstrueerd met behulp van IBPERF-hulpprogramma’s, om de netwerkprestaties te evalueren tijdens congestie veroorzaakt door Scast
  • De benchmark van de Nvidia Collective Communication Library (NCCL), die de toepassingsdoorvoer tijdens training en communicatiefasen evalueert voor inferentie tussen de GPU’s
  • MLCommons MLPERF-set van referentieparameters, die de meest begrepen statistieken evalueren, zoals de tijd om het werk te voltooien (JCT) en tokens per seconde van de workloads

Tabel 1

Legende:

JCT = tijd om het werk te voltooien

Bus BW = Busbreedte van de bus

ECN/PFC = expliciete congestiemelding en prioriteitsstroomcontrole

NCCL-benchmarking ten opzichte van congestie-ontwijkingseigenschappen

Congestie hoopt zich op tijdens de backpropagatiefase van het trainingsproces, waarbij synchronisatie van de gradiënt tussen alle deelnemende GPU’s vereist is. Naarmate de modelgrootte en het aantal GPU’s toenemen, neemt de micro-congestie in de netwerkstof toe. Figuur 2 laat de resultaten zien van de JCT-benchmarking en verkeersverdeling. Cisco Silicon One ondersteunt geavanceerde congestie-ontwijkende functies zoals dynamische belastingbalans (DLB) en pakketverstrooiingstechnieken en Data Center Quantized Congestion Notification (DCQCN) voor congestiebeheer.

Figuur 2. Benchmark NCCL – JCT en verkeersverdeling

Figuur 2 toont hoe de NCCL-benchmark presteert onder verschillende congestie-ontwijkende functies. We hebben de meest voorkomende collectieve bewerkingen getest met verschillende berichtgroottes om deze statistieken te benadrukken. De resultaten tonen aan dat JCT verbetert met DLB en pakketverstrooiing voor alles wat maximale congestie veroorzaakt vanwege communicatieaard. Hoewel JCT de meest begrepen statistiek is vanuit een toepassingsperspectief, laat het niet zien hoe intensief het netwerk wordt gebruikt, wat het infrastructuurteam moet weten. Deze kennis kan hen helpen bij:

  • Het verbeteren van het netwerkgebruik om JCT te verbeteren
  • Weten hoeveel workloads de netwerkstof kunnen delen zonder de JCT negatief te beïnvloeden
  • Het plannen van toenemend gebruik van use cases

Om het gebruik van de netwerkstof te evalueren, hebben we de Jain Equity Index berekend, waarbij Linktxᵢ de hoeveelheid verkeer is die wordt verzonden via de stofverbinding:

De indexwaarde varieert van 0,0 tot 1,0, waarbij hogere waarden beter zijn. Een waarde van 1.0 vertegenwoordigt een perfecte verdeling. De verkeersverdeling op de stofverbindingen in figuur 2 laat zien hoe DLB-splash-algoritmen en pakketten bijna een perfecte Jain Equity Index creëren, waardoor de verkeersverdeling over de netwerkstof bijna perfect is. ECMP maakt gebruik van statische hashing en kan, afhankelijk van de stroomentropie, leiden tot verkeerspolarisatie, wat micro-congestie veroorzaakt en JCT negatief beïnvloedt.

Silicon One versus Nvidia Spectrum-X en Infiniband

De NCCL-competitieve analysebenchmark (Figuur 3) laat zien hoe Cisco Silicon presteert ten opzichte van NVIDIA Spectrum-X en Infiniband-technologieën. De gegevens voor NVIDIA zijn afkomstig van een semi-analysepublicatie. Let op dat Cisco niet op de hoogte is van hoe deze tests zijn uitgevoerd, maar we weten dat de clusteromvang en de GPU-connectiviteit met de netwerkstof vergelijkbaar zijn met het Zeus-cluster van Cisco.

Figuur 3. Benchmark NCCL – Competitieve analyse

De busbandbreedte (BW-bus) benchmarkt de prestaties van collectieve communicatie door de snelheid van bewerkingen met meerdere GPU’s te meten. Elk collectief heeft een specifieke wiskundige vergelijking gerapporteerd tijdens de benchmarking. Figuur 3 laat zien dat Cisco Silicon One vergelijkbare prestaties biedt ten opzichte van NVIDIA Spectrum-X en Infiniband bij verschillende berichtgroottes.

Evaluatie van netwerkstofprestaties

De IBPERF-benchmark vergelijkt de RDMA-prestaties met ECMP, DLB en Pakketverstrooiing, die cruciaal zijn om de prestaties van de netwerkstof te beoordelen. In de meeste scenario’s, waarbij meerdere GPU’s gegevens naar één GPU sturen, treedt vaak congestie op. We hebben deze omstandigheden gesimuleerd met behulp van de IBPERF-tools.

Figuur 4. Ibperf benchmark – RDMA-prestaties

Figuur 4 laat zien hoe de doorvoer tijdens de geaggregeerde sessie en JCT reageert op verschillende congestie-ontwijkende algoritmen: ECMP, DLB en Pakketverstrooiing. DLB en Pakketverstrooiing bereiken de linkbandbreedte van de verbinding, wat de JCT verbetert.

BRON

  • Paul Arends

    Paul Arends

    “Ik ben Paul Arends, afgestudeerd in Bedrijfskunde aan de Universidad Complutense en met een master in Personeelsmanagement en Organisatieontwikkeling aan ESIC. Ik ben geïnteresseerd in netwerken en social media en richt mijn professionele ontwikkeling op talentmanagement en organisatieverandering.”

    Verwante vermeldingen

    Cisco’s nieuw AI Foundation-model voor beveiligingsoperaties

    Vandaag kondigen we de lancering aan van een nieuwe aangepaste Foundation-Sec-8B-1.1-Instruct-sjabloon die een belangrijke integratie mogelijk maakt tussen Cisco Foundation AI en Splunk AI Assistant in Security in Splunk Enterprise…

    Waar visie en resultaat samenkomen: winnaars Cisco Customer Achievement Awards EMEA 2026

    Terwijl we de inauguratie afronden Cisco-klantsuccesprijzen met onze EMEA-viering, naar aanleiding van de inspirerende resultaten die we over de hele wereld hebben gezien Amerika EN APJC regio’s: We zijn verheugd…

    Geef een reactie

    Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

    Ben je verdwaald?

    Netflix neemt deze week Stranger Things op voor Broadway.

    Netflix neemt deze week Stranger Things op voor Broadway.

    Cisco’s nieuw AI Foundation-model voor beveiligingsoperaties

    Cisco’s nieuw AI Foundation-model voor beveiligingsoperaties

    WhatsApp volledig geblokkeerd in Rusland

    WhatsApp volledig geblokkeerd in Rusland

    Digitale veerkracht in de era van AI

    Digitale veerkracht in de era van AI

    De beste platenspelers voor 2026

    De beste platenspelers voor 2026

    Google Arts & Culture over Indiase creativiteit – Ontdek de rijke kunsttraditie van India

    Google Arts & Culture over Indiase creativiteit – Ontdek de rijke kunsttraditie van India