OUTILS · Google
Gemma 4 accéléré : inférence plus rapide grâce aux multi-token prediction drafters
Google dévoile une technique de multi-token prediction pour Gemma 4, réduisant la latence d'inférence sans dégradation de qualité.
Hacker News (filtré IA)·@amrrs·5 mai 2026

Image · Source originale
Google présente des « drafters » basés sur la prédiction multi-token pour accélérer l'inférence du modèle Gemma 4. La technique permet de générer plusieurs tokens en parallèle, réduisant significativement la latence par rapport à la génération autoregressive classique. Cette approche s'intègre dans l'écosystème open-weights de Gemma et cible les cas d'usage à forte contrainte de vitesse.