RECHERCHE
DOPD : distillation duale on-policy avec pondération par avantage
Un nouveau paradigme de distillation pour LLM et VLM qui contourne l'illusion de privilège en routant dynamiquement la supervision token par token.
arXiv cs.AI · cs.LG · cs.CL·Xinlei Yu, Gen Li, Qingyi Si, Guibin Zhang·29 juin 2026

Image · Source originale
La distillation on-policy (OPD) souffre d'un biais appelé « privilege illusion » : lorsqu'un enseignant ou un élève bénéficie d'informations privilégiées, le signal de supervision mélange l'écart de capacité réel et l'asymétrie d'information, rendant le transfert trompeur. DOPD propose un routage dynamique de la supervision token par token entre politique enseignante et politique étudiante, selon leur écart d'avantage et leurs probabilités relatives. Les expériences sur LLM et VLM montrent des gains constants par rapport à la distillation OPD classique.