RECHERCHE

Transfert d'agence : une technique d'amélioration de politique sans modèle en RL

Une méthode d'arbitrage entre politique de référence et politique apprenante permet d'accélérer l'entraînement RL tout en surpassant la baseline.

arXiv cs.AI · cs.LG · cs.CL·Anton Bolychev, Georgiy Malaniya, Sinan Ibrahim, Pavel Osinenko·8 juin 2026

Image · Source originale

Cet article propose une technique d'entraînement en reinforcement learning qui intègre une politique de référence existante (suboptimale) dans le processus d'apprentissage. Un mécanisme d'arbitrage transfère progressivement le contrôle de la baseline vers la politique apprenante, qui finit par opérer de façon autonome. Des bornes inférieures théoriques sur la probabilité d'atteinte des objectifs sont établies. Les résultats empiriques sur des benchmarks de contrôle continu valident l'approche.

Chaleur 10

Pertinence 52

Nouveauté 62

OUVRIR LA SOURCE ↗

#reinforcement-learning #policy-optimization #contrôle-continu #baseline #transfert