RECHERCHE
Distillation on-policy : quand elle aide, quand elle nuit, et pourquoi
Un framework diagnostique sans entraînement révèle, token par token, quand la distillation on-policy améliore ou dégrade l'apprentissage des modèles de raisonnement.
arXiv cs.AI · cs.LG · cs.CL·Mohammadreza Armandpour, Fatih Ilhan, David Harrison, Ajay Jaiswal·11 mai 2026

Image · Source originale
Des chercheurs proposent un cadre d'analyse sans entraînement permettant d'évaluer la distillation on-policy à la granularité du token, de la question et du modèle enseignant. Ils définissent un gradient idéal par nœud et un score d'alignement basé sur la similarité cosinus pour mesurer la qualité du signal de distillation. Les résultats montrent que la guidance par distillation est bien plus alignée avec l'idéal sur les rollouts incorrects que corrects, où le signal enseignant devient bruité.