
Naarmate datacenters groeien, schalen en uitbreiden om te voldoen aan de behoeften van kunstmatige intelligentie (AI) en high-performance computing (HPC)-workloads, worden netwerken geconfronteerd met steeds grotere uitdagingen. Toenemende netwerkstoringen, congestie van de infrastructuur en ongelijkmatige taakverdeling worden kritische hotspots, waardoor zowel de prestaties als de betrouwbaarheid in gevaar komen. Deze problemen vergroten de staartlatentie en creëren knelpunten, waardoor de efficiëntie van grootschalige gedistribueerde omgevingen wordt ondermijnd.

Om deze uitdagingen aan te pakken, werd in 2023 het Ultra Ethernet Consortium (UEC) opgericht, dat leiding gaf aan een nieuwe krachtige Ethernet-stack die is ontworpen voor deze veeleisende omgevingen. De kern bestaat uit een schaalbaar congestiecontrolemodel dat is geoptimaliseerd voor latentie op microsecondenniveau en complex AI- en HPC-verkeer met grote volumes. Als regerend lid van de UEC speelt Cisco een cruciale rol bij het vormgeven van de fundamentele technologieën die de volgende generatie Ethernet aandrijven.
Verhoog de betrouwbaarheid en efficiëntie op elk niveau
Deze blog onderzoekt enkele van de nieuwste en opkomende UEC-innovaties in de Ultra Ethernet (UE)-netwerkstack: van link layer retry (LLR) en credit-based flow control (CBFC) op de linklaag tot packet trimming op de IP-laag en packet spraying en geavanceerde telemetriemogelijkheden op de transportlaag.


Betrouwbaarheid van linklaagpogingen
LLR werkt op de linklaag en is ontworpen om de betrouwbaarheid op gevoelige netwerkverbindingen te verbeteren. Deze koppelingen zijn vaak kwetsbaar voor kleine verstoringen, zoals periodieke storingen of koppelingsfouten, waardoor de prestaties kunnen afnemen en de wachtrijlatentie kan toenemen. LLR biedt een hop-by-hop hertransmissiemechanisme waarbij pakketten bij de afzender worden gebufferd totdat ze door de ontvanger worden bevestigd. Verloren of beschadigde pakketten worden selectief opnieuw verzonden op de verbindingslaag, waardoor betrokkenheid van het hogere laagprotocol wordt vermeden en de staartlatentie wordt verminderd.


Geavanceerde stroomcontrole
Priority Flow Control (PFC) maakt verliesloze Layer 2-transmissie mogelijk door het verkeer te pauzeren wanneer de buffers vol raken, maar vereist een grote marge, reageert langzaam en voegt configuratie-overhead toe.
CBFC verbetert deze tekortkomingen met een proactief kredietsysteem: zenders zenden alleen uit als ontvangers de beschikbare bufferruimte bevestigen. Tegoeden worden efficiënt bijgehouden met fietstellers en uitgewisseld via lichtgewicht updates, zodat gegevens alleen worden verzonden wanneer ze kunnen worden ontvangen. Dit voorkomt uitval, vermindert de buffervereisten en handhaaft een verliesvrije structuur met betere efficiëntie en eenvoudiger installatie, waardoor het ideaal is voor AI-netwerken.
Slimmer congestieherstel
Pakketreductie werkt op de IP-laag en maakt intelligenter congestieherstel mogelijk door pakketheaders te behouden en de payload te elimineren. Wanneer schakelaars congestie detecteren, knippen ze de header af en sturen deze terug naar de afzender (back-to-sener [BTS]) of stuur het door naar de bestemming (doorsturen naar bestemming [FTD]). Dit mechanisme vermindert onnodige hertransmissie van hele pakketten, waardoor congestie wordt verminderd en de staartlatentie wordt verbeterd.


- In de FTD-modus kan het doel onvolledige pakketten onmiddellijk detecteren en gericht herstel initiëren, bijvoorbeeld door alleen ontbrekende gegevens op te vragen. Het ingekorte pakket is doorgaans enkele tientallen bytes lang en bevat controle-informatie die essentieel is om de ontvanger op de hoogte te stellen van het verlies. Dit maakt snellere convergentie en hertransmissies met lage latentie mogelijk.
- De BTS-modus stuurt minimale meldingen naar de bron, waardoor deze congestie op die specifieke transmissie kan detecteren en proactief opnieuw kan verzenden zonder op een time-out te hoeven wachten.
Beide technieken maken een soepel herstel mogelijk zonder time-outs of verliezen, met behulp van hertransmissieplanning die nieuwe pogingen stimuleert en, indien nodig, verschuift naar meerdere alternatieve routes met gelijke kosten (ECMP).
Flexibele load-balancing
Flexibele taakverdeling met packet spraying maakt gebruik van traditionele ECMP-belastingverdeling, waarbij elke stroom aan een vast pad wordt toegewezen met behulp van op hash gebaseerde poortselectie, maar padcontrole ontbreekt en botsingen kan veroorzaken. UE introduceert een entropiewaardeveld (EV) dat eindpunten voorziet van controle per pakket over padselectie.
Door de EV te variëren, verdeelt pakketspraying pakketten dynamisch tussen ECMP’s, waardoor aanhoudende botsingen worden voorkomen en een optimaal bandbreedtegebruik wordt gegarandeerd. Dit vermindert de verkeersbias, verbetert de taakverdeling en maakt in de loop van de tijd volledig gebruik van de netwerkbandbreedte. De UE maakt levering op volgorde mogelijk wanneer dat nodig is door de EV te bevestigen, terwijl adaptief spuiten voor andere stromen wordt ondersteund.
Realtime congestiebeheer
Congestiebeheer in de transportlaag van de EU combineert geavanceerde congestiecontrole met fijnmazige telemetrie en snelle reactiemechanismen. In tegenstelling tot traditioneel Ethernet, dat afhankelijk is van reactieve signalen zoals expliciete congestiemeldingen (ECN) of pakketverlies die beperkt inzicht bieden in de locatie en de ernst van de congestie, voegt UEC realtime in-band-metrieken toe die rechtstreeks in pakketheaders zijn ingebed via congestiesignalering (CSIG).
CSIG implementeert een vergelijk-en-vervang-model, waardoor elk apparaat langs het pad het pakket kan bijwerken met ernstigere congestie-informatie zonder de headergrootte te vergroten. De ontvangende netwerkinterfacekaart (NIC) stuurt deze informatie vervolgens terug naar de afzender, waardoor eindhosts adaptieve snelheidsregeling, padselectie en taakverdeling sneller en nauwkeuriger kunnen uitvoeren.


Het UE-framework ondersteunt CSIG-gelabelde pakketten voor congestiebeheer. Terwijl pakketten het netwerk doorkruisen, werkt elke switch de CSIG-tag bij als deze toenemende congestie detecteert, waarbij de beschikbare bandbreedte, het gebruik en de vertraging per hop worden gemonitord. Veelgebruikte links worden onmiddellijk in de tag gecodeerd en de ontvanger reflecteert deze congestiekaart terug naar de afzender. Binnen een enkele retourtijd (RTT) weet de afzender welke verbindingen overbelast zijn en in welke mate, waardoor proactieve alternatieve routekeuze voor tariefaanpassing mogelijk wordt.
Cisco’s leiderschap in de toekomst van Ultra Ethernet
Cisco leidt de evolutie van EU-normen en stimuleert cruciale innovaties voor kunstmatige intelligentie en machine learning (ML)-netwerken naarmate de AI-werklast toeneemt. Naarmate de UE-specificaties zich ontwikkelen, blijft Cisco voorop lopen en zorgt ervoor dat klanten UE-mogelijkheden kunnen overnemen, zoals congestiecontrole, intelligente taakverdeling en transportmogelijkheden van de volgende generatie.
Toekomstbestendig netwerken met Cisco Nexus 9000 Series-switches
Cisco Nexus 9000 Series-switches zijn ontworpen om geavanceerde Ethernet-mogelijkheden te bieden voor de AI-infrastructuur van de volgende generatie. Ze vereenvoudigen de implementatie vanaf de eerste dag en stroomlijnen de activiteiten vanaf de eerste dag met naadloze integratie en upgrademogelijkheden. Met Nexus 9000-switches kunnen organisaties het volledige potentieel van een krachtig, flexibel, toekomstbestendig AI-netwerk ontsluiten.


Een schaalbare AI-infrastructuur mogelijk maken
Terwijl AI- en HPC-workloads het datacenternetwerk opnieuw definiëren, zorgen UEC-innovaties, mogelijk gemaakt door het leiderschap van Cisco, ervoor dat datacenters met vertrouwen kunnen opschalen; de uitdagingen van morgen aangaan; en een betrouwbare, krachtige infrastructuur bieden voor het tijdperk van kunstmatige intelligentie.
Aanvullende bronnen: