RECHERCHE

DARP : politiques de récupération différentielle pour l'imitation learning

Une approche semi-paramétrique qui réutilise les données d'entraînement à l'inférence pour corriger les erreurs de généralisation du behavior cloning.

arXiv cs.AI · cs.LG · cs.CL·Quinn Pfeifer, Ethan Pronovost, Paarth Shah, Khimya Khetarpal·8 juin 2026

Image · Source originale

Le behavior cloning souffre d'erreurs cumulatives en dehors de la distribution d'entraînement. DARP propose une approche semi-paramétrique basée sur la récupération k-nearest neighbors : le modèle prédit les actions à partir de démonstrations expertes voisines et des vecteurs de distance relatifs entre états. Sans hypothèses supplémentaires ni collecte de données additionnelle, DARP améliore les performances de 15 à 46 % sur des tâches de contrôle continu et de manipulation robotique.

Chaleur 14

Pertinence 55

Nouveauté 68

OUVRIR LA SOURCE ↗

#imitation-learning #behavior-cloning #retrieval #robotique #RAG