RECHERCHE

DOPD : distillation duale on-policy avec pondération par avantage

Un nouveau paradigme de distillation pour LLM et VLM qui contourne l'illusion de privilège en routant dynamiquement la supervision token par token.

arXiv cs.AI · cs.LG · cs.CL·Xinlei Yu, Gen Li, Qingyi Si, Guibin Zhang·29 juin 2026

Image · Source originale

La distillation on-policy (OPD) souffre d'un biais appelé « privilege illusion » : lorsqu'un enseignant ou un élève bénéficie d'informations privilégiées, le signal de supervision mélange l'écart de capacité réel et l'asymétrie d'information, rendant le transfert trompeur. DOPD propose un routage dynamique de la supervision token par token entre politique enseignante et politique étudiante, selon leur écart d'avantage et leurs probabilités relatives. Les expériences sur LLM et VLM montrent des gains constants par rapport à la distillation OPD classique.

Chaleur 32

Pertinence 62

Nouveauté 72

OUVRIR LA SOURCE ↗

#distillation #LLM #VLM #on-policy #fine-tuning