RECHERCHE
DARP : politiques de récupération différentielle pour l'imitation learning
Une approche semi-paramétrique qui réutilise les données d'entraînement à l'inférence pour corriger les erreurs de généralisation du behavior cloning.
arXiv cs.AI · cs.LG · cs.CL·Quinn Pfeifer, Ethan Pronovost, Paarth Shah, Khimya Khetarpal·8 juin 2026

Image · Source originale
Le behavior cloning souffre d'erreurs cumulatives en dehors de la distribution d'entraînement. DARP propose une approche semi-paramétrique basée sur la récupération k-nearest neighbors : le modèle prédit les actions à partir de démonstrations expertes voisines et des vecteurs de distance relatifs entre états. Sans hypothèses supplémentaires ni collecte de données additionnelle, DARP améliore les performances de 15 à 46 % sur des tâches de contrôle continu et de manipulation robotique.