RECHERCHE
Transfert d'agence : une technique d'amélioration de politique sans modèle en RL
Une méthode d'arbitrage entre politique de référence et politique apprenante permet d'accélérer l'entraînement RL tout en surpassant la baseline.
arXiv cs.AI · cs.LG · cs.CL·Anton Bolychev, Georgiy Malaniya, Sinan Ibrahim, Pavel Osinenko·8 juin 2026

Image · Source originale
Cet article propose une technique d'entraînement en reinforcement learning qui intègre une politique de référence existante (suboptimale) dans le processus d'apprentissage. Un mécanisme d'arbitrage transfère progressivement le contrôle de la baseline vers la politique apprenante, qui finit par opérer de façon autonome. Des bornes inférieures théoriques sur la probabilité d'atteinte des objectifs sont établies. Les résultats empiriques sur des benchmarks de contrôle continu valident l'approche.