RECHERCHE

Quand les prompts supplantent la vision : hallucinations induites dans les LVLMs

Des chercheurs montrent que les instructions textuelles sont la principale cause d'hallucinations dans les modèles vision-langage, et proposent un correctif.

arXiv cs.AI · cs.LG · cs.CL·Pegah Khayatan, Jayneel Parekh, Arnaud Dapogny, Mustafa Shukor·23 avril 2026

HalluScope est un benchmark conçu pour mesurer l'impact des différents facteurs d'hallucination dans les grands modèles vision-langage (LVLMs). Les analyses révèlent que ces erreurs proviennent principalement d'une dépendance excessive aux priors textuels, notamment aux instructions. Pour y remédier, les auteurs proposent HalluVL-DPO, un cadre de fine-tuning par optimisation de préférence qui oriente les modèles vers des réponses mieux ancrées dans le visuel.

Chaleur 0

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#LVLMs #hallucination #vision-langage #fine-tuning #benchmark