RECHERCHE

d-OPSD : auto-distillation on-policy pour les LLM de diffusion

Un premier framework d'auto-distillation on-policy conçu spécifiquement pour les diffusion LLMs, avec une supervision au niveau des étapes de débruitage.

arXiv cs.AI · cs.LG · cs.CL·Yifu Luo, Zeyu Chen, Haoyu Wang, Xinhao Hu·16 juin 2026

Image · Source originale

Les méthodes d'auto-distillation on-policy (OPSD) existantes sont centrées sur la génération autorégressive et incompatibles avec les LLM de diffusion (dLLMs). d-OPSD reformule la construction du modèle enseignant via un conditionnement suffixe sur les réponses générées, et déplace la supervision du niveau token au niveau step pour s'aligner sur le débruitage itératif. Sur quatre benchmarks de raisonnement, d-OPSD surpasse RLVR et SFT avec seulement 10 % des étapes d'optimisation requises par RLVR.

Chaleur 9

Pertinence 72

Nouveauté 82

OUVRIR LA SOURCE ↗

#diffusion-llm #self-distillation #post-training #raisonnement #RLVR