RECHERCHE
Repenser la supervision par récompense : auto-distillation conditionnée par des rubriques
Une nouvelle approche remplace les scalaires de récompense par des rubriques structurées pour guider l'apprentissage des modèles de raisonnement.
arXiv cs.AI · cs.LG · cs.CL·Siyi Gu, Jialin Chen, Sophia Zhou, Arman Cohan·17 juin 2026

Image · Source originale
Le post-training des LLM de raisonnement souffre des limites de la distillation supervisée (annotations coûteuses et bruitées) et du RL classique (signal scalaire trop grossier). La méthode proposée, Rubric-Conditioned Self-Distillation, conditionne un modèle enseignant sur des rubriques critériées et l'utilise pour guider au niveau token les trajectoires générées par le modèle étudiant. Évaluée sur des benchmarks de raisonnement scientifique, l'approche offre une attribution de crédit plus fine que l'optimisation par récompense scalaire.