RECHERCHE
AHA-WAM : modélisation monde-action asynchrone et adaptative pour la manipulation robotique
Un nouveau modèle dual DiT découple la planification visuelle basse fréquence et l'exécution d'actions haute fréquence pour améliorer le contrôle embodied.
arXiv cs.AI · cs.LG · cs.CL·Jisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu·8 juin 2026

Image · Source originale
AHA-WAM propose une architecture dual Diffusion Transformer séparant la prédiction du monde (low-frequency) et l'exécution des actions (high-frequency), résolvant le couplage temporel rigide des modèles monde-action existants. Un planificateur vidéo maintient une mémoire glissante des observations passées, tandis qu'un DiT d'action interroge ce contexte via une attention jointe par couches. L'entraînement adaptatif à l'horizon et le routage OVCR permettent une exécution asynchrone sans relancer le DiT vidéo. Les résultats sur RoboTwin et des tâches réelles confirment les gains de l'approche.