De toekomst van encoder-decodermodellen

De volgende generatie encoder-decodermodellen

T5Gemma 2 is de volgende stap in de evolutie van onze encoder-decoderfamilie, gebaseerd op Gemma 3, met de eerste multimode encoder-decodermodellen met lange context.

In tegenstelling tot T5Gemma maakt T5Gemma 2 gebruik van gebonden woordinbedding (op encoder en decoder) en combineert het zelfaandacht en kruis-aandacht van de decoder om de modelparameters op te slaan. Het biedt vooraf getrainde compacte modellen met afmetingen van 270M-270M (~370M totaal, exclusief vision-encoder), 1B-1B (~1,7B) en 4B-4B (~7B) parameters, waardoor ze ideaal zijn voor snelle experimenten en implementatie in toepassingen op het apparaat.

Achtergrond

Met de originele T5Gemma hebben we laten zien dat we met succes moderne, vooraf getrainde modellen voor uitsluitend decoders konden aanpassen aan een encoder-decoder-architectuur, waardoor nieuwe veelzijdigheid werd ontsloten. Door te initialiseren met de gewichten van een krachtig decodermodel en vervolgens continue pre-training toe te passen, hebben we hoogwaardige, inferentie-efficiënte modellen gecreëerd, waarbij we de rekenkosten van helemaal opnieuw trainen hebben omzeild.

T5Gemma 2 breidt dit uit naar het domein van vision-taalmodellen door belangrijke innovaties uit Gemma 3 op te nemen.

Wat is er nieuw

T5Gemma 2 is meer dan een herontwikkeling. Het bevat aanzienlijke architectonische veranderingen en heeft veel van de krachtige functies van de volgende generatie van de Gemma 3-familie geërfd.

Architectonische innovaties voor efficiëntie

Om de efficiëntie op kleinere schaal te maximaliseren, hebben we belangrijke structurele verfijningen geïntroduceerd:

Gelinkte insluitingen: Nu binden we de inbedding tussen de encoder en de decoder. Dit vermindert het totale aantal parameters aanzienlijk, waardoor we meer actieve mogelijkheden kunnen verpakken in dezelfde geheugenvoetafdruk, wat cruciaal is voor ons nieuwe compacte 270M-270M-model.
Verenigde aandacht: In de decoder gebruiken we een gefuseerd aandachtsmechanisme, waarbij persoonlijke en kruisaandacht worden gecombineerd in één enkele, uniforme aandachtslaag. Dit vermindert modelparameters en architectonische complexiteit, verbetert de parallellisatie van modellen en komt de gevolgtrekking ten goede.

Functies van de volgende generatie

Voortbouwend op Gemma 3 vertegenwoordigt T5Gemma 2 ook een aanzienlijke upgrade van de mogelijkheden van het model:

Multimodaliteit: T5Gemma 2-modellen kunnen afbeeldingen naast tekst begrijpen en verwerken. Met behulp van een zeer efficiënte visuele encoder kunnen modellen naadloos visuele vraagantwoorden en multimodale redeneertaken uitvoeren.
Uitgebreide lange context: We hebben het contextvenster aanzienlijk uitgebreid. Door gebruik te maken van het lokale en mondiale afwisselende aandachtsmechanisme van Gemma 3, kan T5Gemma 2 contextvensters van maximaal 128.000 tokens verwerken.
Massaal meertalig: Deze modellen zijn getraind op een grotere en meer diverse dataset en ondersteunen nu out-of-the-box meer dan 140 talen.

Prestatie

T5Gemma 2 zet een nieuwe standaard voor wat compacte encoder-decodermodellen kunnen bereiken. Onze nieuwe modellen demonstreren sterke prestaties op alle belangrijke capaciteitsgebieden, waarbij ze de krachtige multimodale en lange-contextmogelijkheden van de Gemma 3-architectuur overnemen.

BRON