RECHERCHE
SpecKV : sélection adaptative de la longueur de spéculation pour le décodage spéculatif
Un contrôleur léger ajuste dynamiquement le paramètre γ du speculative decoding selon la compression du modèle cible, gagnant 56 % de débit.
arXiv cs.AI · cs.LG · cs.CL·Shikhar Shukla·4 mai 2026

Image · Source originale
SpecKV propose un contrôleur adaptatif qui sélectionne à chaque étape la longueur de spéculation γ en exploitant l'entropie et la confiance du modèle draft. Les auteurs montrent que la valeur optimale de γ varie selon le niveau de compression (FP16, INT8, NF4) et que ces signaux internes corrèlent fortement avec le taux d'acceptation (≈0,56). Un petit MLP entraîné sur 5 112 enregistrements permet un gain de 56 % sur la baseline γ=4 fixe, avec seulement 0,34 ms de surcoût. Le code, les données et les modèles sont publiés en open source.