RECHERCHE

SpecKV : sélection adaptative de la longueur de spéculation pour le décodage spéculatif

Un contrôleur léger ajuste dynamiquement le paramètre γ du speculative decoding selon la compression du modèle cible, gagnant 56 % de débit.

arXiv cs.AI · cs.LG · cs.CL·Shikhar Shukla·4 mai 2026

Image · Source originale

SpecKV propose un contrôleur adaptatif qui sélectionne à chaque étape la longueur de spéculation γ en exploitant l'entropie et la confiance du modèle draft. Les auteurs montrent que la valeur optimale de γ varie selon le niveau de compression (FP16, INT8, NF4) et que ces signaux internes corrèlent fortement avec le taux d'acceptation (≈0,56). Un petit MLP entraîné sur 5 112 enregistrements permet un gain de 56 % sur la baseline γ=4 fixe, avec seulement 0,34 ms de surcoût. Le code, les données et les modèles sont publiés en open source.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#speculative-decoding #inférence LLM #compression #optimisation #open-source