RECHERCHE

Apprentissage de priors d'action pour la manipulation robotique cross-embodiment

Un nouveau framework en deux étapes pré-entraîne le module d'action d'un modèle VLA avec des priors de mouvement avant l'alignement cross-modal.

arXiv cs.AI · cs.LG · cs.CL·Dong Jing, Tianqi Zhang, Jiaqi Liu, Jinman Zhao·24 juin 2026

Image · Source originale

Les modèles Vision-Language-Action (VLA) laissent généralement leur module d'action apprendre la dynamique physique depuis zéro. Cette étude propose un framework en deux étapes : d'abord un pré-entraînement du module d'action via flow-matching sur des trajectoires non conditionnées, puis un transfert vers l'entraînement VLA par réutilisation du décodeur et distillation latente. Testé sur 13 benchmarks cross-embodiment, le module entraîné sert aussi de compresseur compact d'historique.

Chaleur 25

Pertinence 58

Nouveauté 72

OUVRIR LA SOURCE ↗

#VLA #robotique #cross-embodiment #flow-matching #action-prior