De toekomst van encoder-decodermodellen

T5Gemma 2 is de volgende stap in de evolutie van onze encoder-decoderfamilie, gebaseerd op Gemma 3, met de eerste multimode encoder-decodermodellen met lange context.

In tegenstelling tot T5Gemma maakt T5Gemma 2 gebruik van gebonden woordinbedding (op encoder en decoder) en combineert het zelfaandacht en kruis-aandacht van de decoder om de modelparameters op te slaan. Het biedt vooraf getrainde compacte modellen met afmetingen van 270M-270M (~370M totaal, exclusief vision-encoder), 1B-1B (~1,7B) en 4B-4B (~7B) parameters, waardoor ze ideaal zijn voor snelle experimenten en implementatie in toepassingen op het apparaat.

Achtergrond

Met de originele T5Gemma hebben we laten zien dat we met succes moderne, vooraf getrainde modellen voor uitsluitend decoders konden aanpassen aan een encoder-decoder-architectuur, waardoor nieuwe veelzijdigheid werd ontsloten. Door te initialiseren met de gewichten van een krachtig decodermodel en vervolgens continue pre-training toe te passen, hebben we hoogwaardige, inferentie-efficiënte modellen gecreëerd, waarbij we de rekenkosten van helemaal opnieuw trainen hebben omzeild.

T5Gemma 2 breidt dit uit naar het domein van vision-taalmodellen door belangrijke innovaties uit Gemma 3 op te nemen.

Wat is er nieuw

T5Gemma 2 is meer dan een herontwikkeling. Het bevat aanzienlijke architectonische veranderingen en heeft veel van de krachtige functies van de volgende generatie van de Gemma 3-familie geërfd.

Architectonische innovaties voor efficiëntie

Om de efficiëntie op kleinere schaal te maximaliseren, hebben we belangrijke structurele verfijningen geïntroduceerd:

  • Gelinkte insluitingen: Nu binden we de inbedding tussen de encoder en de decoder. Dit vermindert het totale aantal parameters aanzienlijk, waardoor we meer actieve mogelijkheden kunnen verpakken in dezelfde geheugenvoetafdruk, wat cruciaal is voor ons nieuwe compacte 270M-270M-model.
  • Verenigde aandacht: In de decoder gebruiken we een gefuseerd aandachtsmechanisme, waarbij persoonlijke en kruisaandacht worden gecombineerd in één enkele, uniforme aandachtslaag. Dit vermindert modelparameters en architectonische complexiteit, verbetert de parallellisatie van modellen en komt de gevolgtrekking ten goede.

Functies van de volgende generatie

Voortbouwend op Gemma 3 vertegenwoordigt T5Gemma 2 ook een aanzienlijke upgrade van de mogelijkheden van het model:

  • Multimodaliteit: T5Gemma 2-modellen kunnen afbeeldingen naast tekst begrijpen en verwerken. Met behulp van een zeer efficiënte visuele encoder kunnen modellen naadloos visuele vraagantwoorden en multimodale redeneertaken uitvoeren.
  • Uitgebreide lange context: We hebben het contextvenster aanzienlijk uitgebreid. Door gebruik te maken van het lokale en mondiale afwisselende aandachtsmechanisme van Gemma 3, kan T5Gemma 2 contextvensters van maximaal 128.000 tokens verwerken.
  • Massaal meertalig: Deze modellen zijn getraind op een grotere en meer diverse dataset en ondersteunen nu out-of-the-box meer dan 140 talen.

Prestatie

T5Gemma 2 zet een nieuwe standaard voor wat compacte encoder-decodermodellen kunnen bereiken. Onze nieuwe modellen demonstreren sterke prestaties op alle belangrijke capaciteitsgebieden, waarbij ze de krachtige multimodale en lange-contextmogelijkheden van de Gemma 3-architectuur overnemen.

BRON

Paul Arends

Paul Arends

“Ik ben Paul Arends, afgestudeerd in Bedrijfskunde aan de Universidad Complutense en met een master in Personeelsmanagement en Organisatieontwikkeling aan ESIC. Ik ben geïnteresseerd in netwerken en social media en richt mijn professionele ontwikkeling op talentmanagement en organisatieverandering.”

Verwante vermeldingen

Bekijk Google AI gegenereerde video’s in Gemini-app

We breiden onze tools voor inhoudstransparantie uit, zodat u door AI gegenereerde inhoud gemakkelijker kunt identificeren. Nu kunt u in de Gemini-app direct controleren of een video is bewerkt of…

NotebookLM van Google: Gegevenstabellen functionaliteitintroductie

Waardevolle informatie is zelden overzichtelijk. Belangrijke feiten zijn vaak verspreid, waardoor het handmatig verzamelen ervan een vervelende klus is. Gelukkig is er nu een eenvoudigere manier met gegevenstabellen. NotebookLM vat…

Geef een reactie

Je e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Ben je verdwaald?

NASA beëindigt missie Crew 11-astronauten eerder

NASA beëindigt missie Crew 11-astronauten eerder

Ontvang 4 Bluetooth-trackers voor slechts $ 65

Ontvang 4 Bluetooth-trackers voor slechts $ 65

Anker Nano 45W Smart Display-oplader van CES nu $10 korting

Anker Nano 45W Smart Display-oplader van CES nu $10 korting

Sharpa’s pingpong en blackjack humanoïde op CES 2026

Sharpa’s pingpong en blackjack humanoïde op CES 2026

Meta kondigt afspraken over kernenergie aan

Meta kondigt afspraken over kernenergie aan

CES 2026: Pc-industrie op de proef gesteld dit jaar

CES 2026: Pc-industrie op de proef gesteld dit jaar