RECHERCHE · Microsoft
GroundedPlanBench : planification robotique à horizon long avec ancrage spatial
Microsoft Research propose un benchmark et un framework pour évaluer et entraîner les VLMs à planifier actions et localisations simultanément en robotique.
Microsoft Research·Sehun Jung, HyunJee Song, Dong-Hee Kim, Reuben Tan, Jianfeng Gao, Yong Jae Lee, Donghyun Kim·26 mars 2026

Image · Source originale
GroundedPlanBench est un benchmark conçu pour évaluer la capacité des vision-language models (VLMs) à produire des plans d'actions spatialement ancrés pour la manipulation robotique sur des tâches longues et complexes. Le framework V2GP (Video-to-Spatially Grounded Planning) convertit des vidéos de démonstration robotique en données d'entraînement annotées spatialement, permettant un apprentissage conjoint de la planification et du grounding. Les résultats montrent que l'ancrage spatial intégré surpasse les approches découplées sur le benchmark et en évaluation réelle.