RECHERCHE
SpatialClaw : repenser l'interface d'action pour le raisonnement spatial agentique
Un framework sans entraînement qui utilise le code comme interface d'action pour améliorer le raisonnement spatial 3D/4D des VLMs via des agents itératifs.
arXiv cs.AI · cs.LG · cs.CL·Seokju Cho, Ryo Hachiuma, Abhishek Badki, Hang Su·11 juin 2026

Image · Source originale
SpatialClaw est un framework training-free qui améliore le raisonnement spatial des vision-language models en adoptant le code comme interface d'action. Un kernel Python avec état conserve les frames d'entrée et des primitives de perception géométrique, permettant à l'agent de générer une cellule exécutable par étape en fonction de tous les résultats précédents. Cette approche offre plus de flexibilité que l'exécution en passe unique ou les interfaces d'appel d'outils structurés. Le système est évalué sur 20 benchmarks de raisonnement spatial statique et dynamique.