RECHERCHE
Apprentissage de préférences coordonnées pour le reinforcement learning multi-objectif multi-agent
PCMA propose un cadre théorique et pratique pour coordonner les préférences d'agents coopératifs face à des objectifs conflictuels.
arXiv cs.AI · cs.LG · cs.CL·Pengxin Wang, Lihao Guo, Yi Xie, Bo Liu·12 juin 2026

Image · Source originale
Les auteurs introduisent PCMA (Preference Coordinated Multi-agent Policy Optimization), une méthode d'apprentissage par renforcement coopératif multi-objectif multi-agent. Le cadre formalise le problème comme un jeu d'équipe optimal et démontre que la diversité des préférences peut induire une amélioration collective via une décomposition au premier ordre. Les expériences sur plusieurs environnements MOMARL et un scénario de contrôle du trafic valident l'approche.