Cisco heeft een infrastructuur ontworpen die klaar is voor AI met Cisco Calcole, Nvidia Best GPU in zijn klasse en Cisco Networking die de vorming van kunstmatige intelligentiemodellen en tientallen use cases voor de product- en engineeringteams van Cisco ondersteunen.
Het is geen geheim dat de druk van het implementeren van AI in het hele bedrijf uitdagingen met zich meebrengt voor IT-teams. Het daagt ons uit om nieuwe technologieën sneller te implementeren dan ooit tevoren en om de manier waarop datacenters worden gebouwd te heroverwegen om te voldoen aan de groeiende behoeften op het gebied van berekening, netwerken en opslag. Hoewel het tempo van innovatie en bedrijfsgroei opwindend is, kan het ook ontmoedigend overkomen.
Hoe kunt u snel de datacenterinfrastructuur aanpassen om AI-workloads te ondersteunen en gelijke tred te houden met de kritieke zakelijke behoeften? Dat is precies waar ons team, Cisco IT, voor stond.
De uitdaging van het bedrijf
We werden benaderd door een productteam dat een manier nodig had om workloads uit te voeren die zouden worden gebruikt om nieuwe kunstmatige intelligentiefuncties voor Cisco-producten te ontwikkelen en te testen. Het zou uiteindelijk de ontwikkeling van het model ondersteunen en impact hebben op meerdere teams en tientallen use cases in het hele bedrijf. Ze hadden het snel nodig. De behoefte van het productteam om onze klanten zo snel mogelijk te bedienen, leidde ons naar het leveren van de nieuwe omgeving binnen slechts drie maanden.
De technologische vereisten
We begonnen met het identificeren van de vereisten voor de nieuwe AI-infrastructuur. Een niet-blokkerend en verliesvrij netwerk was essentieel in combinatie met de berekeningskracht om een betrouwbare, voorspelbare en hoogwaardige gegevensoverdracht binnen het AI-cluster te waarborgen. Ethernet was de eerste keuze. Andere vereisten waren:
- Intelligent bufferen, lage latentie: Deze zijn essentieel om een soepele gegevensstroom te behouden, vertragingen te minimaliseren en de reactietijd van de AI-toepassingen te verbeteren, net zoals in elk goed datacenter.
- Dynamische congestie vermijden voor verschillende workloads: Werkbelastingen kunnen sterk variëren in hun netwerk- en berekeningsbehoeften. Het vermijden van dynamische congestie zou ervoor zorgen dat de middelen efficiënt worden toegewezen, prestatieverlies tijdens piekgebruik voorkomt en consistente serviceniveaus handhaaft om knelpunten te voorkomen die de operaties kunnen verstoren.
- Toegewijde front-end en back-end netwerken, niet-blokkerende stof: Om schaalbare infrastructuren te bouwen, was een niet-blokkerende stof essentieel om voldoende bandbreedte vrij te maken en hoge-snelheid gegevensoverdracht mogelijk te maken, wat cruciaal is voor het beheer van grote gegevensvolumes in AI-toepassingen. Door front-end en back-end netwerken te scheiden, konden we de beveiliging, prestaties en betrouwbaarheid verbeteren.
- Automatisering van dag 0 tot dag 2 bewerkingen: Vanaf het moment dat we de infrastructuur implementeerden, moesten we manuele interventies minimaliseren om processen efficiënt te houden en menselijke fouten te voorkomen.
- Telemetrie en zichtbaarheid: Deze vaardigheden zouden inzichten bieden in de prestaties en gezondheid van het systeem, waardoor proactief beheer en probleemoplossing mogelijk zijn.
Het plan – met enkele uitdagingen om te overwinnen
Met de vereisten in gedachten, begonnen we te kijken waar het cluster kon worden gebouwd. De bestaande datacenterstructuren waren niet ontworpen om AI-workloads te ondersteunen. We wisten dat het vanaf nul opbouwen van een datacenter met een volledige update 18-24 maanden zou duren, wat geen optie was. Dus kozen we ervoor om binnen enkele weken een operationele infrastructuur te leveren door een bestaande structuur met kleine aanpassingen aan bedrading en apparaatverdeling te gebruiken.
Onze volgende zorg was gerelateerd aan de gegevens die nodig waren om de modellen te trainen. Aangezien sommige van deze gegevens niet lokaal beschikbaar zouden zijn in dezelfde structuur als onze AI-infrastructuur, besloten we om gegevens van andere datacenters te repliceren naar onze infrastructuuropslagsystemen om prestatieproblemen als gevolg van netwerklatentie te voorkomen. Ons netwerkteam moest ervoor zorgen dat er voldoende netwerkcapaciteit was om deze gegevensreplica te beheren in de AI-infrastructuur.
Nu naar de echte infrastructuur. We hebben het hart van de infrastructuur ontworpen met Cisco Compute, de beste GPU in zijn klasse van NVIDIA en Cisco-netwerken. Aan de netwerkkant hebben we een Ethernet-front-end netwerk en een verliesvrij Ethernet-netwerk opgebouwd. Met dit model waren we ervan overtuigd dat we de functionaliteit snel konden uitrollen naar een geavanceerde omgeving en deze konden blijven uitbreiden naarmate we meer structuren online brachten.
Producten:
Ondersteunen van een groeiende omgeving
Na het beschikbaar stellen van de initiële infrastructuur, voegde het bedrijf wekelijks meer use cases toe en voegden we verdere AI-clusters toe om ze te ondersteunen. We hadden een manier nodig om het beheer te vereenvoudigen, inclusief het beheer van schakelconfiguraties en monitoring voor pakketverlies. We gebruikten Cisco Nexus Dashboard, dat de operaties aanzienlijk vereenvoudigde en ervoor zorgde dat we konden groeien en aanpassen voor de toekomst. Aangezien we het al gebruikten in andere delen van onze datacenteractiviteiten, was het gemakkelijk om het uit te breiden naar onze AI-infrastructuur en hoefde het team geen extra tool te leren.
De resultaten
Ons team was in staat om snel te handelen en verschillende obstakels te overwinnen bij het ontwerpen van de oplossing. We konden de netwerkondersteuning binnen minder dan drie uur ontwerpen en implementeren en het volledige cluster en de AI-infrastructuur binnen 3 maanden uitrollen, wat 80% sneller was dan een alternatieve herbouw.
Tegenwoordig ondersteunt de omgeving meer dan 25 use cases in het hele bedrijf, waarvan de meeste wekelijks worden toegevoegd. Dit omvat:
- WebEx-audio: het verbeteren van de ontwikkeling van codecs voor ruisonderdrukking en voorspellende gegevens met lagere bandbreedte
- WebEx-video: modeltraining voor achtergrondvervanging, herkenning van gebaren en gezichtspunten
- LLM-aanpassingstraining voor IT-beveiligingsproducten en veiligheidscapaciteit
We hebben niet alleen kunnen voldoen aan de huidige zakelijke behoeften, maar ook geleerd hoe onze datacenters moeten evolueren voor de toekomst. We zijn actief bezig met het bouwen van meer clusters en zullen verdere details delen over onze reis in toekomstige blogs. De modulariteit en flexibiliteit van Cisco’s netwerken, berekeningen en beveiliging geven ons het vertrouwen dat we kunnen meegroeien met het bedrijf.
Aanvullende bronnen:
Deel:








