Waarom wordt de tekst verspreid?
Hoewel de AI-onderzoeksgemeenschap al jaren onderzoek doet naar diffusiegebaseerde tekstgeneratie, blijft de toepassing ervan op grote modellen een uitdaging. DiffusionGemma verandert dit door de manier te veranderen waarop modellen hardware gebruiken.
Het compromis met traditionele modellen
De meeste taalmodellen gedragen zich als een typemachine en genereren één token tegelijk van links naar rechts. In de cloud is dit efficiënt omdat servers duizenden gebruikersverzoeken kunnen groeperen om de hardwarebelasting te delen. Maar wanneer dit woord-voor-woord-proces lokaal wordt uitgevoerd voor een enkele gebruiker, blijft de speciale GPU of TPU onderbenut: het besteedt het grootste deel van zijn tijd aan het wachten op de volgende ’toetsaanslag’.
DiffusionGemma maakt een einde aan deze inefficiëntie. In plaats van woorden opeenvolgend te voorspellen, wordt tegelijkertijd een volledige paragraaf van 256 tokens opgesteld. Door de processor van uw computer meer werk in één keer te geven, benut DiffusionGemma de hardware optimaal. Het upgradet de modelinferentie van een enkele sequentiële typemachine naar een enorme drukpers die tegelijkertijd het hele tekstblok afdrukt.






