RECHERCHE

ReasonAlloc : allocation hiérarchique du budget KV cache pour modèles de raisonnement

Un framework sans entraînement qui optimise la compression du KV cache durant le décodage, en allouant dynamiquement les ressources par couche et par tête d'attention.

arXiv cs.AI · cs.LG · cs.CL·Wenhao Liu, Hao Shi, Yunhe Li, Weizhi Fei·9 juin 2026

Image · Source originale

Les longues chaînes de raisonnement (CoT) des LLM engendrent des goulets d'étranglement à l'inférence en raison de la croissance rapide du KV cache. ReasonAlloc propose une allocation hiérarchique en deux niveaux : une pré-allocation hors ligne par couche, et une réallocation en ligne par tête d'attention selon l'utilité en temps réel. Évalué sur MATH-500 et AIME 2024, il surpasse les méthodes à budget uniforme, notamment à faibles budgets (128-512 tokens), sans overhead significatif.

Chaleur 27

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#kv-cache #raisonnement #LLM #inférence #compression