RECHERCHE
Apprentissage de priors d'action pour la manipulation robotique cross-embodiment
Un nouveau framework en deux étapes pré-entraîne le module d'action d'un modèle VLA avec des priors de mouvement avant l'alignement cross-modal.
arXiv cs.AI · cs.LG · cs.CL·Dong Jing, Tianqi Zhang, Jiaqi Liu, Jinman Zhao·24 juin 2026

Image · Source originale
Les modèles Vision-Language-Action (VLA) laissent généralement leur module d'action apprendre la dynamique physique depuis zéro. Cette étude propose un framework en deux étapes : d'abord un pré-entraînement du module d'action via flow-matching sur des trajectoires non conditionnées, puis un transfert vers l'entraînement VLA par réutilisation du décodeur et distillation latente. Testé sur 13 benchmarks cross-embodiment, le module entraîné sert aussi de compresseur compact d'historique.