RECHERCHE
ReasonAlloc : allocation hiérarchique du budget KV cache pour modèles de raisonnement
Un framework sans entraînement qui optimise la compression du KV cache durant le décodage, en allouant dynamiquement les ressources par couche et par tête d'attention.
arXiv cs.AI · cs.LG · cs.CL·Wenhao Liu, Hao Shi, Yunhe Li, Weizhi Fei·9 juin 2026

Image · Source originale
Les longues chaînes de raisonnement (CoT) des LLM engendrent des goulets d'étranglement à l'inférence en raison de la croissance rapide du KV cache. ReasonAlloc propose une allocation hiérarchique en deux niveaux : une pré-allocation hors ligne par couche, et une réallocation en ligne par tête d'attention selon l'utilité en temps réel. Évalué sur MATH-500 et AIME 2024, il surpasse les méthodes à budget uniforme, notamment à faibles budgets (128-512 tokens), sans overhead significatif.