RECHERCHE
Problème ouvert : AdamW est-il efficace sous bruit à queue lourde ?
AdamW reste l'optimiseur de référence pour les LLMs, mais sa convergence sous bruit à queue lourde — pourtant omniprésent en pré-entraînement — n'est pas prouvée.
arXiv cs.AI · cs.LG · cs.CL·Dingzhi Yu, Hongyi Tao, Yuanyu Wan, Luo Luo·22 juin 2026

Image · Source originale
AdamW domine l'entraînement des LLMs, mais sa théorie repose sur des hypothèses de variance finie, alors que le bruit des gradients stochastiques en pré-entraînement est empiriquement à queue lourde. Des optimiseurs comme Lion, Muon ou AdaGrad disposent déjà de garanties dans ce régime. Les auteurs formalisent l'absence de théorie pour AdamW comme un problème ouvert, établissent un benchmark pondéré positif et montrent via un mécanisme de borne inférieure comment l'accumulateur du second moment peut masquer de grands gradients.