RECHERCHE
CoMet : décomposition contextuelle et multiplicité pour l'estimation d'incertitude multimodale
CoMet propose une méthode d'estimation de l'incertitude dans les LLMs multimodaux en séparant ambiguïté contextuelle et multiplicité des réponses plausibles.
arXiv cs.AI · cs.LG · cs.CL·Sanghyuk Chun, William Yang, Amaya Dharmasiri, Olga Russakovsky·30 juin 2026

Image · Source originale
CoMet décompose l'incertitude des modèles multimodaux (MLLMs) en deux composantes : un terme lié au contexte (tâche, prompt) et un terme de multiplicité (nombre de réponses plausibles compatibles avec l'entrée). Un module post-hoc léger est entraîné pour estimer ces quantités sans génération autorégressive ni échantillonnage répété. Les expériences sur des benchmarks ouverts, la détection d'hallucinations et le VQA montrent des améliorations constantes par rapport aux baselines.