RECHERCHE
Reroute : routage récupérable des tokens visuels pour les modèles vision-langage
Plutôt que de supprimer définitivement les tokens visuels peu pertinents, Reroute les reporte temporairement et les réintroduit aux étapes suivantes du décodeur.
arXiv cs.AI · cs.LG · cs.CL·Cheng-Yu Yang, Shao-Yuan Lo, Yu-Lun Liu·10 juin 2026

Image · Source originale
Les VLMs génèrent des centaines à des milliers de tokens visuels, rendant l'inférence coûteuse. Les méthodes existantes élaguent ces tokens de façon irréversible, ignorant que leur importance varie selon la profondeur du décodeur. Reroute, un plug-in sans entraînement, remplace la suppression par un routage récupérable : les tokens différés réintègrent le processus à l'étape suivante. Sur LLaVA-1.5 et Qwen, cette approche améliore les tâches de grounding sans dégrader les performances VQA générales.