RECHERCHE
Turing-RL : entraîner des simulateurs d'utilisateurs via une récompense de type test de Turing
Une approche par renforcement inspirée du test de Turing pour apprendre à simuler des comportements humains en contexte conversationnel.
arXiv cs.AI · cs.LG · cs.CL·Yingshan Susan Wang, Cedegao E. Zhang, Linlu Qiu, Zexue He·17 juin 2026

Image · Source originale
Turing-RL est une méthode de reinforcement learning qui entraîne un LLM simulateur d'utilisateur à produire des réponses indiscernables de celles d'un vrai humain, jugées par un LLM arbitre. Contrairement aux approches classiques basées sur la similarité avec une réponse de référence, l'objectif est l'indiscernabilité. Sur deux domaines (chat conversationnel et forums Reddit), Turing-RL surpasse les baselines en évaluation humaine et automatique.