RECHERCHE
InSight : acquisition autonome de compétences via des VLA pilotables
Un framework permet aux modèles vision-langage-action d'apprendre de nouvelles compétences robotiques sans démonstrations humaines, grâce à un volant de données guidé par VLM.
arXiv cs.AI · cs.LG · cs.CL·Maggie Wang, Lars Osterberg, Stephen Tian, Ola Shorinwa·23 juin 2026

Image · Source originale
InSight est un framework qui rend les modèles VLA pilotables au niveau des actions primitives (déplacer le préhenseur, soulever, verser). Il repose sur deux étapes : une segmentation automatique des démonstrations en primitives étiquetées, puis un volant de données guidé par VLM qui identifie les primitives manquantes, tente de les démontrer de façon autonome et intègre les succès dans le jeu d'entraînement. Les résultats en simulation et en conditions réelles montrent que les primitives apprises se composent pour exécuter des tâches longues sans démonstrations humaines supplémentaires.