RECHERCHE

TriViewBench : évaluation des MLLMs sur le raisonnement spatial multi-vues

Un nouveau benchmark contrôlé révèle que les grands modèles multimodaux échouent massivement dès que la complexité spatiale 3D augmente.

arXiv cs.AI · cs.LG · cs.CL·Yu-Yang Chen, Lan-Zhe Guo·24 juin 2026

Image · Source originale

TriViewBench est un benchmark de raisonnement visuel à trois vues, construit à partir de scènes 3D synthétiques avec des niveaux de complexité paramétrés. Sur 18 MLLMs évalués, tous affichent la même hiérarchie de capacités (décision locale > comptage > reconstruction globale), avec une dégradation sévère sur les tâches globales (-80%). Le Chain-of-Thought n'apporte quasiment aucun gain, suggérant que le goulot d'étranglement est la représentation spatiale cross-vues.

Chaleur 26

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#benchmark #MLLM #raisonnement spatial #multi-view #3D