RECHERCHE

Même preuve, réponse différente : audit de la sensibilité à l'ordre dans les MLLM

Une étude révèle qu'aucun des 18 grands modèles multimodaux testés n'est invariant à l'ordre de présentation des données, avec des taux d'inversion atteignant 50 %.

arXiv cs.AI · cs.LG · cs.CL·Akshay Paruchuri, Sanmi Koyejo, Ehsan Adeli·24 juin 2026

Image · Source originale

Le benchmark Facet-Probe évalue 18 modèles multimodaux (MLLMs) selon cinq dimensions d'ordre (options, chunks de preuve, rang de document, ensemble d'images, modalités mixtes). Aucun modèle n'est invariant à l'ordre : les taux d'inversion de réponse atteignent 24 à 50 % selon la facette. Le meilleur modèle testé inverse encore 13,4 % de ses réponses. Les atténuations par prompt seul s'avèrent insuffisantes et non transférables du texte au raisonnement visuel.

Chaleur 36

Pertinence 78

Nouveauté 72

OUVRIR LA SOURCE ↗

#MLLM #benchmark #robustesse #multimodal #évaluation