RECHERCHE
Cohérence optimiseur-modèle : le fine-tuning avec le même optimiseur réduit l'oubli catastrophique
Utiliser le même optimiseur en pré-entraînement et en SFT améliore le compromis apprentissage/oubli, surpassant même LoRA selon cette étude.
arXiv cs.AI · cs.LG · cs.CL·Yuxing Liu, Jianyu Wang, Tong Zhang·7 mai 2026

Image · Source originale
Des chercheurs montrent que le full fine-tuning avec le même optimiseur qu'en pré-entraînement réduit l'oubli catastrophique tout en maintenant de bonnes performances sur les nouvelles tâches, un phénomène qu'ils nomment « optimizer-model consistency ». Les optimiseurs exercent des effets de régularisation sur les activations, façonnant le paysage autour des checkpoints pré-entraînés. La comparaison Muon/AdamW révèle que Muon tend vers la mémorisation par cœur, ce qui nuit à l'acquisition de patterns en SFT raisonné.