RECHERCHE

BICR : estimer la confiance des LVLM en détectant l'ancrage visuel réel

Un nouveau framework détecte si un modèle vision-langage répond grâce à l'image ou uniquement à partir de ses priors linguistiques.

arXiv cs.AI · cs.LG · cs.CL·Reza Khanmohammadi, Erfan Miahi, Simerjot Kaur, Charese H. Smiley·11 mai 2026

Image · Source originale

BICR (Blind-Image Contrastive Ranking) est un framework d'estimation de confiance agnostique au modèle qui extrait les états cachés d'un LVLM gelé deux fois : une fois avec l'image réelle, une fois avec l'image masquée. Une sonde légère est entraînée à pénaliser une confiance élevée sur la vue sans image, signalant l'ancrage visuel comme indicateur de fiabilité. Évalué sur cinq LVLMs et sept baselines, BICR surpasse les méthodes existantes en calibration et discrimination, avec 4 à 18 fois moins de paramètres.

Chaleur 0

Pertinence 72

Nouveauté 75

OUVRIR LA SOURCE ↗

#LVLM #confiance #hallucination #vision-language #grounding