RECHERCHE

L'auto-distillation on-policy réduit la diversité des sorties des LLMs

Des chercheurs montrent que l'auto-distillation avec démonstrations améliore le pass@1 mais détériore significativement la diversité des sorties et les performances en distribution.

arXiv cs.AI · cs.LG · cs.CL·Andrei Liviu Nicolicioiu, Mohammad Pezeshki, Aaron Courville·24 juin 2026

Image · Source originale

L'auto-distillation on-policy, où un modèle joue simultanément les rôles d'enseignant et d'élève, atteint de bonnes performances en pass@1 mais réduit la diversité des rollouts, aplatissant les courbes pass@k. Les auteurs démontrent théoriquement que ce mécanisme amplifie les biais existants via un score d'information mutuelle conditionnelle, concentrant la masse sur les modes dominants. Contrairement au RL classique, l'auto-distillation échoue sur des tâches hors-distribution nécessitant des stratégies variées.

Chaleur 31

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#auto-distillation #LLM #diversité #on-policy #reinforcement-learning