RECHERCHE

CoMet : décomposition contextuelle et multiplicité pour l'estimation d'incertitude multimodale

CoMet propose une méthode d'estimation de l'incertitude dans les LLMs multimodaux en séparant ambiguïté contextuelle et multiplicité des réponses plausibles.

arXiv cs.AI · cs.LG · cs.CL·Sanghyuk Chun, William Yang, Amaya Dharmasiri, Olga Russakovsky·30 juin 2026

Image · Source originale

CoMet décompose l'incertitude des modèles multimodaux (MLLMs) en deux composantes : un terme lié au contexte (tâche, prompt) et un terme de multiplicité (nombre de réponses plausibles compatibles avec l'entrée). Un module post-hoc léger est entraîné pour estimer ces quantités sans génération autorégressive ni échantillonnage répété. Les expériences sur des benchmarks ouverts, la détection d'hallucinations et le VQA montrent des améliorations constantes par rapport aux baselines.

Chaleur 24

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#uncertainty estimation #multimodal LLM #hallucination #VQA #metacognition