4 items

#kv-cache

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 38
Windowed-MTP : supprimer le surcoût de KV cache complet du draft à un million de tokens
Une fenêtre glissante appliquée uniquement au module de prédiction multi-token accélère le décodage spéculatif sans perte de qualité sur des contextes massifs.
RECHERCHE
heat 52
FreqDepthKV : compression du cache KV guidée par la fréquence et la profondeur pour l'inférence LLM longue
Une nouvelle méthode de compression du cache KV à l'inférence divise les états en composantes basse fréquence partagées et résidus haute fréquence, sans réentraînement.
RECHERCHE
heat 52
DepthWeave-KV : compression adaptative du cache KV par factorisation résiduelle inter-couches
Une nouvelle méthode réduit jusqu'à 8,3× la mémoire du cache KV des LLMs en contexte long, sans réentraîner le modèle de base.
OUTILS
heat 52
KV-psi : utiliser le PSI Linux pour élaguer le KV cache d'un LLM
Un outil expérimental exploite les métriques de pression mémoire du noyau Linux (PSI) pour décider dynamiquement quand réduire le KV cache des LLM.