UC San Diego Lab optimaliseert generatieve AI met NVIDIA DGX B200

Researchers pose around box with NVIDIA DGX B200.

Het onderzoeksteam van het Hao AI Lab aan de Universiteit van Californië, San Diego, dat voorop loopt in baanbrekende AI-modelinnovatie, heeft onlangs een NVIDIA DGX B200-systeem ontvangen om hun cruciale werk bij het ontwikkelen van grote taalmodellen te versterken.

Veel LLM-inferentieplatforms die momenteel in productie zijn, zoals NVIDIA Dynamo, maken gebruik van onderzoeksconcepten die afkomstig zijn van het Hao AI Lab, waaronder DistServe.

Hoe gebruikt het Hao AI Lab de DGX B200?

Leden van het Hao AI Lab met het NVIDIA DGX B200-systeem.

Met de volledige toegang tot de DGX B200 voor het Hao AI Lab en de bredere UC San Diego-gemeenschap van het San Diego Supercomputer Center van de School of Computing, Information and Data Sciences, zijn de onderzoeksmogelijkheden eindeloos.

“DGX B200 is een van de krachtigste AI-systemen van NVIDIA tot nu toe, wat betekent dat de prestaties tot de beste ter wereld behoren”, zegt Hao Zhang, assistent-professor aan het Halıcıoğlu Data Science Institute en de afdeling Computerwetenschappen en Engineering aan UC San Diego. “Hiermee kunnen we veel sneller prototypen en experimenteren dan met hardware van de vorige generatie.”

Twee projecten van het Hao AI Lab die worden versneld door de DGX B200 zijn FastVideo en de Lmgame-benchmark.

FastVideo richt zich op het trainen van een familie van videogeneratiemodellen om in slechts vijf seconden een video van vijf seconden te produceren op basis van een specifiek sms-bericht.

De onderzoeksfase van FastVideo maakt gebruik van NVIDIA H200 GPU’s naast het DGX B200-systeem.

Lmgame-bench is een benchmarkingsuite die LLM’s test met behulp van populaire online games, waaronder Tetris en Super Mario Bros. Gebruikers kunnen één model tegelijk testen of twee modellen tegen elkaar plaatsen om hun prestaties te meten.

Geïllustreerde afbeelding van de Lmgame-Bench-workflow. — De geïllustreerde workflow van het Lmgame-Bench-project van Hao AI Lab.

Andere lopende projecten bij Hao AI Labs onderzoeken nieuwe manieren om LLM-diensten met lage latentie te realiseren, waarbij grote taalmodellen in de richting van real-time responsiviteit worden geduwd.

“Ons huidige onderzoek maakt gebruik van de DGX B200 om de volgende grens van LLM-service met lage latentie te verkennen op basis van de buitengewone hardwarespecificaties die het systeem ons biedt”, zegt Junda Chen, een promovendus in computerwetenschappen aan de UC San Diego.

Hoe DistServe de gedesaggregeerde publicatie beïnvloedde

Gedesaggregeerde gevolgtrekking is een manier om ervoor te zorgen dat grootschalige LLM-service-engines een optimale totale systeemdoorvoer kunnen bereiken, terwijl een acceptabel lage latentie voor gebruikersverzoeken behouden blijft.

Het voordeel van gedesaggregeerde gevolgtrekking ligt in het optimaliseren van wat DistServe ‘goodput’ noemt in plaats van ’throughput’ in de LLM-service-engine.

Dit is het verschil:

De doorvoer wordt gemeten aan de hand van het aantal tokens per seconde dat het hele systeem kan genereren. Een hogere doorvoer betekent lagere kosten voor het genereren van elk token voor de gebruiker. Lange tijd was de doorvoer de enige maatstaf die werd gebruikt door motoren die LLM bedienen om hun prestaties ten opzichte van elkaar te meten.

Hoewel de doorvoer de totale prestatie van het systeem meet, is deze niet direct gerelateerd aan de door een gebruiker waargenomen latentie. Als een gebruiker een lagere latentie nodig heeft om tokens te genereren, moet het systeem de doorvoer opofferen.

Deze natuurlijke wisselwerking tussen doorvoer en latentie heeft het DistServe-team ertoe gebracht een nieuwe maatstaf voor te stellen, ‘goodput’: de maatstaf voor de doorvoer terwijl wordt voldaan aan door de gebruiker gespecificeerde latentiedoelen, meestal serviceniveaudoelen genoemd. Met andere woorden, goodput vertegenwoordigt de algehele gezondheid van een systeem en voldoet tegelijkertijd aan de gebruikerservaring.

DistServe laat zien dat goodput een veel betere maatstaf is voor LLM-servicesystemen, omdat het rekening houdt met zowel de kosten als de kwaliteit van de dienstverlening. Goodput leidt tot optimale efficiëntie en het ideale resultaat van een model.

Hoe kunnen ontwikkelaars een optimale goodput bereiken?

Wanneer een gebruiker een verzoek indient in een LLM-systeem, accepteert het systeem de invoer van de gebruiker en genereert het het eerste token, ook wel prefill genoemd. Vervolgens creëert het systeem een groot aantal uitvoertokens, de een na de ander, en voorspelt het toekomstige gedrag van elk token op basis van de resultaten van eerdere verzoeken. Dit proces staat bekend als decodering.

Precompilatie en decodering zijn traditioneel uitgevoerd op dezelfde GPU, maar de onderzoekers achter DistServe hebben ontdekt dat het opsplitsen ervan over verschillende GPU’s een goede doorvoer maximaliseert.

“Als je deze twee taken voorheen op één GPU plaatste, concurreerden ze met elkaar om bronnen, wat de prestaties vanuit gebruikersperspectief kon vertragen”, aldus Chen. “Als ik nu de taken over twee verschillende sets GPU’s verdeel – één die precompilatie doet, wat rekenintensief is, en de andere die decodering doet, wat meer geheugen vereist – kunnen we in wezen de interferentie tussen de twee taken elimineren, waardoor ze sneller worden.

Dit proces wordt precompilatie/decodering-disaggregatie genoemd, of het scheiden van precompilatie en decodering om een grotere winstgevendheid te bereiken.

Het vergroten van de goodput en het gebruik van de gedesaggregeerde inferentiemethode maakt een naadloze schaalbaarheid van workloads mogelijk zonder afbreuk te doen aan de lage latentie of hoogwaardige modelreacties.

NVIDIA Dynamo, een open source-framework dat is ontworpen om generatieve AI-modellen te versnellen en te schalen op het hoogste efficiëntieniveau tegen de laagste kosten, stelt u in staat gedesaggregeerde gevolgtrekkingen op te schalen.

Naast deze projecten zijn er bij UC San Diego samenwerkingen tussen afdelingen gaande, bijvoorbeeld op het gebied van de gezondheidszorg en de levenswetenschappen, om een verscheidenheid aan onderzoeksprojecten verder te optimaliseren met behulp van de NVIDIA DGX B200, terwijl onderzoekers blijven onderzoeken hoe AI-platforms innovatie kunnen versnellen.

Meer informatie over NVIDIA DGX B200 systeem.

Ik ga naar de supermarkt om boodschappen te doen.

BRON