RECHERCHE

LightKV : alléger le cache KV des modèles vision-langage

Une nouvelle méthode compresse le cache KV des LVLMs en exploitant la redondance des tokens visuels, guidée par le prompt texte.

arXiv cs.AI · cs.LG · cs.CL·Xihao Chen, Yangyang Guo, Roger Zimmermann·1 mai 2026

Image · Source originale

LightKV réduit la taille du cache KV dans les grands modèles vision-langage (LVLMs) en identifiant les redondances entre embeddings de tokens visuels. Guidée par le prompt textuel via un mécanisme de cross-modality message passing, la méthode compresse progressivement les tokens visuels durant la phase de prefill. Avec seulement 55 % des tokens visuels d'origine, elle divise par deux la mémoire GPU dédiée au cache KV et réduit le calcul jusqu'à 40 %, tout en conservant les performances sur huit benchmarks publics.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#LLM #LVLM #KV cache #compression #vision-langage