RECHERCHE
Surveiller l'entraînement des transformers couche par couche via une approche de « peeling »
Un framework d'analyse couche par couche pour détecter les sous-optimisations silencieuses dans les LLMs, y compris en contexte de quantification.
arXiv cs.AI · cs.LG · cs.CL·Arian Eamaz, Farhang Yeganegi, Mojtaba Soltanalian·4 mai 2026

Image · Source originale
Des chercheurs proposent un framework de « peeling » pour diagnostiquer la qualité d'optimisation de chaque couche d'un transformer durant l'entraînement. Chaque couche est comparée à des solutions de référence légères construites à partir des représentations intermédiaires du modèle. Les expériences sur des modèles decoder-only montrent que ces bornes de référence peuvent égaler ou dépasser le modèle entraîné, révélant des inefficacités invisibles dans les courbes de perte agrégées. L'approche reste efficace sous binarisation et quantification.