Toutes les news taguées avec ce sujet.
Un premier framework d'auto-distillation on-policy conçu spécifiquement pour les diffusion LLMs, avec une supervision au niveau des étapes de débruitage.