RECHERCHE
L'auto-distillation on-policy réduit la diversité des sorties des LLMs
Des chercheurs montrent que l'auto-distillation avec démonstrations améliore le pass@1 mais détériore significativement la diversité des sorties et les performances en distribution.
arXiv cs.AI · cs.LG · cs.CL·Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville·24 juin 2026

Image · Source originale
L'auto-distillation on-policy, où un modèle joue simultanément les rôles d'enseignant et d'élève, atteint de bonnes performances en pass@1 mais réduit la diversité des rollouts, aplatissant les courbes pass@k. Les auteurs démontrent théoriquement que ce mécanisme amplifie les biais existants via un score d'information mutuelle conditionnelle, concentrant la masse sur les modes dominants. Contrairement au RL classique, l'auto-distillation échoue sur des tâches hors-distribution nécessitant des stratégies variées.