RECHERCHE
TIDE : distillation cross-architecture pour les LLM de diffusion
Un premier framework permet de transférer la connaissance d'un LLM de diffusion massif vers un modèle étudiant d'architecture différente, réduisant drastiquement la taille sans sacrifier les performances.
arXiv cs.AI · cs.LG · cs.CL·Gongbo Zhang, Wen Wang, Ye Tian, Li Yuan·29 avril 2026

Image · Source originale
TIDE est le premier framework de distillation cross-architecture pour les diffusion LLM (dLLMs), permettant un transfert de connaissance entre modèles dont l'architecture, le mécanisme d'attention et le tokenizer diffèrent. Il repose sur trois composants : TIDAL (modulation de la force de distillation selon le timestep), CompDemo (enrichissement du contexte enseignant) et Reverse CALM (objectif cross-tokenizer à gradients bornés). Distiller des modèles enseignants de 8B dense et 16B MoE vers un étudiant de 0,6B surpasse la baseline de 1,53 point en moyenne sur 8 benchmarks, avec un score HumanEval de 48,78 contre 32,3 pour la baseline.