RECHERCHE
Le reinforcement learning avec feedback métacognitif améliore l'expression de l'incertitude dans les LLMs
Une nouvelle méthode, RLMF, exploite la métacognition pour aligner la confiance exprimée des LLMs sur leur incertitude réelle, réduisant les hallucinations.
arXiv cs.AI · cs.LG · cs.CL·Gabrielle Kaili-May Liu, Avi Caciularu, Gal Yona, Idan Szpektor·30 juin 2026

Image · Source originale
Des chercheurs proposent le reinforcement learning with metacognitive feedback (RLMF), un paradigme qui affine le classement des réponses lors de l'optimisation par préférences en s'appuyant sur la qualité des auto-évaluations du modèle. Couplé à une sélection de données métacognitive, cette approche cible la calibration fidèle (faithful calibration) : aligner la confiance exprimée avec l'incertitude intrinsèque du modèle. Les expériences montrent des résultats généralisables à l'état de l'art, y compris pour des LLMs frontier.