Sinds de lancering van Gemma 4 twee maanden geleden, hebben we continu gewerkt aan het uitbreiden van de mogelijkheden ervan. We hebben Multi-Token Prediction (MTP) geïntroduceerd om de inferentie te versnellen, en onlangs hebben we een 12B-model uitgebracht om de kloof tussen onze E4B- en 26B MOE-modellen te overbruggen.
Vandaag introduceren we nieuwe controlepunten die geoptimaliseerd zijn met Quantization-Aware Training (QAT) om Gemma 4 nog efficiënter te maken, zodat modellen lokaal kunnen worden uitgevoerd op edge-apparaten en consumenten-GPU’s. QAT minimaliseert kwaliteitsverlies bij het comprimeren van het model door kwantisering tijdens de training te simuleren. Deze release bevat QAT-controlepunten voor het Q4_0-kwantiseringsformaat en een nieuw kwantiseringsformaat voor mobiel gebruik, wat heeft geleid tot een verminderde geheugenvoetafdruk van de Gemma 4 E2B tot 1 GB.
Kwantisering is essentieel voor het uitvoeren van modellen op consumentenhardware door de geheugenvoetafdruk te verkleinen en de decoderingssnelheid te verhogen. QAT integreert het kwantiseringsproces rechtstreeks in de training, in plaats van het model na de training te kwantiseren zoals bij standaard post-training kwantisering (PTQ). Onze QAT-resultaten behouden een hogere algehele kwaliteit dan standaard PTQ-basislijnen.
We hebben het QAT-recept toegepast op het Q4_0-formaat om de prestaties van alle modellen te maximaliseren. Voor de edge-modellen (E2B en E4B) hebben we een speciaal kwantiseringsschema ontwikkeld dat is geoptimaliseerd voor mobiele apparaten.
Met deze nieuwe aanpak kunnen gebruikers besparen op VRAM en opslagruimte bij het uitvoeren van modellen. Gemma 4 blijft de kwaliteit en mogelijkheden bieden die gebruikers verwachten, terwijl de geheugenvereisten dramatisch worden verminderd.
BRON





