RECHERCHE · Microsoft
AsgardBench : un benchmark pour la planification interactive à ancrage visuel
Microsoft Research publie AsgardBench, un benchmark conçu pour évaluer si les agents IA incarnés utilisent réellement leurs observations visuelles pour réviser leurs plans.
Microsoft Research·Andrea Tupini, Lars Liden, Reuben Tan, Yu Wang, Jianfeng Gao·26 mars 2026

Image · Source originale
AsgardBench isole la capacité des agents IA incarnés à adapter leur planification en fonction de retours visuels, sans s'appuyer sur la prévisibilité de l'environnement. Le benchmark couvre 108 instances contrôlées réparties en 12 types de tâches ménagères, où la position et l'état des objets varient, imposant des séquences d'actions différentes pour une même instruction. L'objectif est de mesurer précisément l'utilisation effective de la perception visuelle dans la prise de décision.