De reden waarom neoclouds behoefte hebben aan geïntegreerde netwerken

De beslissing over de stof die de marges bepaalt

Een financieel directeur van een bedrijf bekijkt de uitgaven voor kunstmatige intelligentie: de kosten voor training nemen snel toe bij een hyperscaler waar ze al contracten hebben, ook al bevinden hun gegevens zich daar niet exclusief; de inferentieprestaties lopen achter; en er ligt een neocloud pilotproject op tafel. Slechts een jaar of twee geleden waren de praktische keuzes voornamelijk beperkt tot hyperscalers; de recente explosie van kunstmatige intelligentie heeft neoclouds een echte optie gemaakt voor veel organisaties die ontdekken dat ze alternatieven hebben wanneer ze de grenzen bereiken op het gebied van prestaties, kosten, flexibiliteit, service of beschikbaarheid van GPU’s. De vraag is niet of een neocloud gebruiken; de vraag is of die neocloud in staat is om de volledige levenscyclus van kunstmatige intelligentie vast te leggen (training en productie-inferentie) of alleen een eenmalig project.

In de hele markt zien leveranciers met vergelijkbare GPU-voetafdrukken zeer verschillende resultaten. Sommigen zien klanten hun modellen trainen op hun infrastructuur en vervolgens de productiewerkbelasting elders naartoe verplaatsen. Voor elke dollar aan traininginkomsten die behouden blijven, verdwijnen veel dollars aan inferentie-inkomsten met een hogere marge door de achterdeur. Anderen zien de inkomsten uit inferentie sneller groeien dan die uit training, met brutomarges die zich uitbreiden van de tienerjaren naar de jaren ’30 en waarderingen die de duurzame economie van het platform weerspiegelen in plaats van grondstofprijzen. Met duizenden AI-projecten die momenteel wereldwijd lopen, is het niet verwonderlijk dat verschillende leveranciers enigszins verschillende modellen zien, maar er duidelijke trends opduiken in de manier waarop architecturen en bedrijfsmodellen met elkaar zijn verbonden.

Het verschil zit niet in de beste GPU’s of tijdelijke kortingen. De vooruitstrevende leveranciers hebben een specifieke architecturale inzet gedaan: geünificeerde AI-stoffen die in staat zijn om training en inferentie gelijktijdig op hoge prestaties uit te voeren, ondersteund door een geünificeerd controleplan. Dit is een structurele beslissing die zich in de loop der jaren opbouwt. Nadat je hebt gekozen tussen dubbele stoffen en een geünificeerde stof, heb je eigenlijk je margeprofiel gekozen.

De economie is hard. Een dual-fabric leverancier die afzonderlijke training en inferentie-infrastructuren beheert, brengt hoge operationele en kapitaalkosten met zich mee, beperkte flexibiliteit en marges die geneigd zijn te stabiliseren op halverwege de tienerjaren. Een concurrent met een geünificeerde stof en een vergelijkbaar aantal GPU’s beheert beide werkbelastingen op één stof, verwerft inferentie SLA’s samen met trainingswerkzaamheden, verplaatst de bedrijfsmix naar recurrente inkomsten met hogere marges en genereert hogere waarderingen in het proces. In realistische scenario’s kan het bruto winstverschil tussen deze twee paden op grote schaal oplopen tot honderden miljoenen dollars. Dit verschil bepaalt wie de kasstroom heeft om te blijven investeren en wie achterblijft in een consoliderende markt. Het maakt het essentieel dat neoclouds zich afvragen niet alleen hoe hun stof is opgebouwd, maar ook welk deel van hun bedrijfsmodel gericht is op recurrente inferenties met hogere marges in plaats van eenmalige trainingsprojecten.

Platformmakelaar of GPU?

In de loop van 2024 en 2025 was het dominante neocloud-voorstel eenvoudig: toegang tot de GPU tegen lagere prijzen dan de hyperscaler. Deze differentiatie is nog steeds belangrijk voor veel klanten, maar er komen nieuwe beslissingscriteria naar voren: bezit en beheert de neocloud de GPU’s? Hebben klanten direct toegang tot level 3 AI-netwerkexperts en GPU-optimalisatie? Kan de leverancier het hele stackprobleem oplossen en dedicated of gedeelde GPU-omgevingen bieden met consultancy- en benchmarkingondersteuning vóór een verbintenis? Hoewel deze punten misschien klein lijken, worden ze kritisch wanneer een trainings- of inferentiecluster stopt met werken en de vraag is: wie kan het oplossen, hoe snel en wanneer?

Voor sommige segmenten wordt het zuivere prijsverschil kleiner omdat de grootste neoclouds en hyperscalers convergeren naar vergelijkbare capaciteiten, terwijl veel opkomende neoclouds nog steeds aanzienlijk lagere effectieve TCO bieden zodra service, ondersteuning, opslag en microservices zijn inbegrepen. In sommige regio’s en voor sommige grote kopers lijkt het erop dat hyperscalers het aanbod van GPU’s hebben ingehaald, maar veel organisaties met bescheiden of zelfs aanzienlijke AI-voetafdrukken ondervinden nog steeds tekorten op het gebied van het type, de timing en de locatie van de capaciteit die ze nodig hebben. De prijzen blijven dalen. Alleen concurreren om de “goedkoopste GPU-verhuur” is een race naar de bodem.

De leveranciers die het zullen redden tot 2030 zullen minder lijken op GPU-verkopers en meer op geïntegreerde AI-platforms, die training, inferentie, fine-tuning en iteratie beheren, zodat klanten kunstmatige intelligentie kunnen gebruiken als bedrijfsfunctionaliteit, niet als een eenmalig project. Platformleveranciers hebben prijsbepalings- en consistentiemacht: wanneer de aanbevelingsengine van de klant, fraudeopsporing en personalisatiemodellen allemaal op een geïntegreerde infrastructuur draaien, worden de kosten van verandering prohibitief. Ze herzien leveranciers niet voor elk nieuw project. Het gemeenschappelijke model is duidelijk: de winnaars gedragen zich als platforms en bieden gedifferentieerde diensten, niet alleen als waardeloze GPU-verkopers.

De klantlevenscyclus maakt dit alles concreet. Een verkoper traint een aanbevelingsmodel op een paar honderd GPU’s en moet nu duizenden inferentieverzoeken per seconde afhandelen met strenge latentie-SLA’s voor hun e-commerce site. Een dual-fabric neocloud kan dergelijke productiesla’s niet garanderen samen met andere huurders: de klant wordt doorverwezen naar een hyperscaler en de neocloud eindigt met een eenmalige overwinning op het gebied van training en miljoenen gemiste inkomsten gedurende de levenscyclus. Een geünificeerde neocloud-stof implementeert hetzelfde model in productie op dezelfde infrastructuur, zonder tweede leverancier, zonder datamigratie, zonder uitstapkosten en zonder nieuwe tools. Twaalf maanden later komen het fine-tunen en nieuwe use-cases op hetzelfde platform. Binnen twee jaar heeft de klant gestandaardiseerd op het platform.

Waarom trainingsstoffen falen in inferentie

Training en inferentie vertegenwoordigen fundamenteel tegenovergestelde verkeerspatronen die door hetzelfde fysieke netwerk stromen. Grote schaaltraining vereist gesynchroniseerde gradientupdates op duizenden GPU’s: in blokken, voorspelbaar, megabytes per synchronisatiefase. De workloads tolereren korte vertragingen; een lichte congestiepiek die de trainingsduur iets verlengt is acceptabel. Traditionele trainingsstoffen zijn hier precies voor geoptimaliseerd: voldoende buffering om de bursts op te vangen, hoge bandbreedte en congestiegevoelige routing.

Figuur 1: Zij-aan-zij vergelijking van trainingsverkeer, gedomineerd door grote gesynchroniseerde gradientuitwisselingen, en inferentieverkeer, gekenmerkt door kleine, onregelmatige en latency-gevoelige verzoeken

Zoals te zien is in Figuur 1, is inferentieverkeer het tegenovergestelde. De verzoeken komen asynchroon binnen van veel klanten op onvoorspelbare tijdstippen, elk klein (kilobyte in plaats van megabyte) en elk kritisch qua latentie. Wanneer een productie-applicatie 80 ms verwacht en 200 ms krijgt, leiden dit tot SLA-straffen. Het bufferen dat geoptimaliseerd is voor trainingsverkeer in blokken kan latentie toevoegen aan de kleine inferentieverzoeken die achter de gradientburst in de rij staan. Operationele teams reageren vaak door de workloads te scheiden op aparte racks en structuren, waardoor twee infrastructuren met dubbele kapitaal- en operationele kosten ontstaan.

Geünificeerde stofarchitectuur

Geünificeerde stoffen brengen workload-bewustzijn naar het netwerk zelf. Wanneer het verkeer geleidelijk stroomt, herkent de structuur dit als massasynchrone communicatie, leidt het naar paden met geschikt buffervolume en plaatst het kort in de wachtrij. Wanneer inferentieverzoeken gelijktijdig binnenkomen, identificeert de stof deze als kritisch voor latency en stuurt ze naar de paden met de laagste latentie, waardoor de SLA’s worden beschermd zonder de training in gevaar te brengen.

Figuur 2: conceptueel diagram dat de geünificeerde architectuur van Cisco N9000 benadrukt, waarbij een gedeeld fabric en controleplan zowel de hoge bandbreedte trainingstromen als de granulaire, lage latentie inferentieverzoeken beheren

De Cisco Nexus N9000-serie switches biedt siliciumniveau ondersteuning voor dit model: fabric-latenties van minder dan 5 microseconden voor snelle collectieve operaties, lossless Ethernet gebaseerd op RoCEv2 met ECN en PFC voor grootschalige training, en diepe gedeelde buffers om de gradientburst op te vangen. Tegelijkertijd behouden de workload-gevoelige congestiebeheer en live bandbreedte-telemetrie de latency-garanties voor inferentiestromen onder zware belasting.

Op rackniveau beheren op NVIDIA Spectrum-X Ethernet Silicon gebaseerde Cisco N9100 switches GPU-GPU-collectieven en passen ze tegelijkertijd rackisolatie toe voor multi-tenant inferentie. Disaggregated storage-platforms zoals VAST Data behandelen beide workloads op hetzelfde netwerk (trainingscheckpoints, modelopslag en inferentiegegevens), allemaal met de juiste prioriteit.

Real-time intelligentie onder belasting

Het controleplan bepaalt of geünificeerde kunstmatige intelligentie op grote schaal bruikbaar is. Cisco Nexus One en Cisco Nexus Dashboard bieden een geünificeerd beheersniveau, waarbij telemetrie, automatisering en beleidstoepassing worden gecentraliseerd, zodat multi-tenant AI-clusters werken als één platform in plaats van als een mozaïek van domeinen.

Stel je de druktest voor: een uitgebreide pre-trainingsklus die wordt uitgevoerd op duizenden H100-klasse GPU’s, met inferentie-eindpunten die productiemodellen bedienen voor tientallen zakelijke klanten tegelijk. Een klantvraag wordt viraal; de inferentieaanvraagsnelheden stijgen binnen minder dan een minuut met twee ordes van grootte.

Op een structuur geoptimaliseerd voor training is de sequentie bekend: inferentieverkeer stroomt in bursts van gradients; De P99-latentie overschrijdt de SLA-drempels, time-outs volgen elkaar op en incidentkanalen lichten op. Zelfs na beperking van de trainingswerklast, is de schade aan SLA-metrics en klantvertrouwen aangericht.

Figuur 3: grafiek die het gedrag van latentie bij piekbelasting illustreert; de structuur geoptimaliseerd voor training vertoont scherpe latentiepieken, terwijl de geünificeerde structuur een constante P99-latentie behoudt

Op een geünificeerde structuur met Cisco Nexus One als controleplan is het antwoord geautomatiseerd. Telemetrie in de band detecteert het verkeersverloop; automatische optimaliseringsbeleid van de structuur: inferentieverkeer krijgt prioriteitsbanen, trainingsverkeer wordt omgeleid naar alternatieve paden met dieper buffer en expliciete congestiemeldingen leiden trainingszenders om de snelheid kort te verlagen. De totale trainingstijdverlaging neemt slechts marginaal toe, binnen de convergentietolerantie, terwijl de inferentie binnen de P99-SLA blijft. Geen handmatige interventie. Geen SLA-overtreding. Het operationele team beheert alles op één dashboard: trainingsconvergentieparameters, inferentielatentiedistributies per huurder en fabric-eigen acties.

De kosten van vertraging

Een leverancier die aparte structuren gebruikt, kan zeggen dat de geünificeerde structuur kan wachten op de volgende budgetcyclus. Ondertussen implementeert dit jaar een concurrent de geünificeerde stof. Binnen enkele kwartalen begint die concurrent klanten aan te trekken die de eerste leverancier heeft getraind maar niet kon bedienen in de productie. Hun marges verbeteren. De volgende financierings

BRON

  • Paul Arends

    Paul Arends

    “Ik ben Paul Arends, afgestudeerd in Bedrijfskunde aan de Universidad Complutense en met een master in Personeelsmanagement en Organisatieontwikkeling aan ESIC. Ik ben geïnteresseerd in netwerken en social media en richt mijn professionele ontwikkeling op talentmanagement en organisatieverandering.”

    Verwante vermeldingen

    Promotie van cloud-native services met Isovalent voor de volgende generatie

    De manier waarop dienstverleners hun infrastructuur bouwen en beveiligen, verandert snel. Nu Kubernetes de operationele ruggengraat wordt voor de implementatie van de zakelijke cloud, zijn de tools die deze omgevingen…

    Ontdek de verrassingen van de Cisco Bangalore-campus!

    Dit artikel is geschreven door Sai Sankar KJV, een technische stagiair bij het CloudOps AI-team, oorspronkelijk gepubliceerd in januari 2017 en volledig bijgewerkt in maart 2026. Dus je hebt gehoord…

    Geef een reactie

    Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

    Ben je verdwaald?

    DoorDash en Rivian Spinoff werken samen aan autonome bestelwagens

    DoorDash en Rivian Spinoff werken samen aan autonome bestelwagens

    Nieuwe mogelijkheden van de Fitbit personal trainer

    Nieuwe mogelijkheden van de Fitbit personal trainer

    Promotie van cloud-native services met Isovalent voor de volgende generatie

    Promotie van cloud-native services met Isovalent voor de volgende generatie

    Rec Room, een VR-spel in de stijl van Roblox, sluit af

    Rec Room, een VR-spel in de stijl van Roblox, sluit af

    De reden waarom neoclouds behoefte hebben aan geïntegreerde netwerken

    De reden waarom neoclouds behoefte hebben aan geïntegreerde netwerken

    Openheid voor werk: vooruitgang in het AI-tijdperk

    Openheid voor werk: vooruitgang in het AI-tijdperk