RECHERCHE
LightKV : alléger le cache KV des modèles vision-langage
Une nouvelle méthode compresse le cache KV des LVLMs en exploitant la redondance des tokens visuels, guidée par le prompt texte.
arXiv cs.AI · cs.LG · cs.CL·Xihao Chen, Yangyang Guo, Roger Zimmermann·1 mai 2026

Image · Source originale
LightKV réduit la taille du cache KV dans les grands modèles vision-langage (LVLMs) en identifiant les redondances entre embeddings de tokens visuels. Guidée par le prompt textuel via un mécanisme de cross-modality message passing, la méthode compresse progressivement les tokens visuels durant la phase de prefill. Avec seulement 55 % des tokens visuels d'origine, elle divise par deux la mémoire GPU dédiée au cache KV et réduit le calcul jusqu'à 40 %, tout en conservant les performances sur huit benchmarks publics.