RECHERCHE
Ambient Diffusion Policy : apprentissage par imitation à partir de données sous-optimales en robotique
Une méthode fondée sur la diffusion exploite la structure spectrale des données robotiques pour filtrer les démonstrations de mauvaise qualité.
arXiv cs.AI · cs.LG · cs.CL·Adam Wei, Nicholas Pfaff, Thomas Cohn, Arif Kerem Dayı·10 juin 2026

Image · Source originale
Ambient Diffusion Policy introduit une approche d'imitation learning capable d'exploiter des jeux de données hétérogènes en robotique, où coexistent données de qualité et démonstrations sous-optimales. La méthode repose sur un usage sélectif des données selon le niveau de bruit dans le processus de diffusion, justifié théoriquement par une loi de puissance spectrale observée dans les données d'actions robotiques. Testée sur six tâches et quatre types de données sous-optimales, elle surpasse les baselines de co-training de 33 % sur Open X-Embodiment.