RECHERCHE

Repenser la supervision par récompense : auto-distillation conditionnée par des rubriques

Une nouvelle approche remplace les scalaires de récompense par des rubriques structurées pour guider l'apprentissage des modèles de raisonnement.

arXiv cs.AI · cs.LG · cs.CL·Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan·17 juin 2026

Image · Source originale

Le post-training des LLM de raisonnement souffre des limites de la distillation supervisée (annotations coûteuses et bruitées) et du RL classique (signal scalaire trop grossier). La méthode proposée, Rubric-Conditioned Self-Distillation, conditionne un modèle enseignant sur des rubriques critériées et l'utilise pour guider au niveau token les trajectoires générées par le modèle étudiant. Évaluée sur des benchmarks de raisonnement scientifique, l'approche offre une attribution de crédit plus fine que l'optimisation par récompense scalaire.

Chaleur 13

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#raisonnement #distillation #RL #post-training #LLM