RECHERCHE
GPRL : un apprentissage par renforcement fondé sur les préférences générales pour les LLMs
Une nouvelle méthode comble le fossé entre RL en ligne et optimisation des préférences, sans recourir à un reward scalaire réducteur.
arXiv cs.AI · cs.LG · cs.CL·Muhammad Umer, Muhammad Ahmed Mohsin, Ahsan Bilal, Arslan Chaudhry·18 mai 2026

Image · Source originale
Le post-training des LLMs est divisé entre RL en ligne (efficace sur tâches vérifiables) et optimisation des préférences (pour la génération ouverte). GPRL propose de remplacer le reward scalaire par un General Preference Model (GPM) structuré en sous-espaces skew-symétriques, capable de représenter des préférences multi-dimensionnelles et intransitives. La méthode calcule des avantages par dimension, les normalise indépendamment et intègre un moniteur de dérive fermé pour éviter l'effondrement vers un seul axe. Sur Llama-3-8B-Instruct, GPRL atteint 56,51 % de win rate sur AlpacaEval 2.0.