RECHERCHE
TriViewBench : évaluation des MLLMs sur le raisonnement spatial multi-vues
Un nouveau benchmark contrôlé révèle que les grands modèles multimodaux échouent massivement dès que la complexité spatiale 3D augmente.
arXiv cs.AI · cs.LG · cs.CL·Yu-Yang Chen, Lan-Zhe Guo·24 juin 2026

Image · Source originale
TriViewBench est un benchmark de raisonnement visuel à trois vues, construit à partir de scènes 3D synthétiques avec des niveaux de complexité paramétrés. Sur 18 MLLMs évalués, tous affichent la même hiérarchie de capacités (décision locale > comptage > reconstruction globale), avec une dégradation sévère sur les tâches globales (-80%). Le Chain-of-Thought n'apporte quasiment aucun gain, suggérant que le goulot d'étranglement est la représentation spatiale cross-vues.