RECHERCHE

Persistent Visual Memory : maintenir la perception visuelle dans les LVLMs génératifs

Un module léger contrecarre la dilution progressive du signal visuel lors de la génération longue dans les grands modèles vision-langage.

arXiv cs.AI · cs.LG · cs.CL·Siyuan Huang, Xiaoye Qu, Yafu Li, Tong Zhu·1 mai 2026

Image · Source originale

Les LVLMs autorégressifs souffrent d'un phénomène de « dilution du signal visuel » : à mesure que l'historique textuel s'allonge, l'attention portée aux tokens visuels décroît. Les auteurs proposent Persistent Visual Memory (PVM), un module apprenable léger intégré en parallèle du FFN, qui maintient un chemin de récupération visuelle indépendant de la distance. Testé sur les modèles Qwen3-VL (4B et 8B), PVM améliore la précision moyenne sur les tâches de raisonnement complexe avec un surcoût en paramètres négligeable.

Chaleur 0

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#LVLMs #vision-langage #attention #raisonnement-multimodal #fine-tuning