RECHERCHE

AHA-WAM : modélisation monde-action asynchrone et adaptative pour la manipulation robotique

Un nouveau modèle dual DiT découple la planification visuelle basse fréquence et l'exécution d'actions haute fréquence pour améliorer le contrôle embodied.

arXiv cs.AI · cs.LG · cs.CL·Jisong Cai, Long Ling, Shiwei Chu, Zhongshan Liu·8 juin 2026

Image · Source originale

AHA-WAM propose une architecture dual Diffusion Transformer séparant la prédiction du monde (low-frequency) et l'exécution des actions (high-frequency), résolvant le couplage temporel rigide des modèles monde-action existants. Un planificateur vidéo maintient une mémoire glissante des observations passées, tandis qu'un DiT d'action interroge ce contexte via une attention jointe par couches. L'entraînement adaptatif à l'horizon et le routage OVCR permettent une exécution asynchrone sans relancer le DiT vidéo. Les résultats sur RoboTwin et des tâches réelles confirment les gains de l'approche.

Chaleur 17

Pertinence 62

Nouveauté 78

OUVRIR LA SOURCE ↗

#robotique #world-model #diffusion-transformer #embodied-ai #manipulation