RECHERCHE
Quand les prompts supplantent la vision : hallucinations induites dans les LVLMs
Des chercheurs montrent que les instructions textuelles sont la principale cause d'hallucinations dans les modèles vision-langage, et proposent un correctif.
arXiv cs.AI · cs.LG · cs.CL·Pegah Khayatan, Jayneel Parekh, Arnaud Dapogny, Mustafa Shukor·23 avril 2026

HalluScope est un benchmark conçu pour mesurer l'impact des différents facteurs d'hallucination dans les grands modèles vision-langage (LVLMs). Les analyses révèlent que ces erreurs proviennent principalement d'une dépendance excessive aux priors textuels, notamment aux instructions. Pour y remédier, les auteurs proposent HalluVL-DPO, un cadre de fine-tuning par optimisation de préférence qui oriente les modèles vers des réponses mieux ancrées dans le visuel.