RECHERCHE

Le délai de gradient d'une étape n'est pas un obstacle au pré-entraînement asynchrone de LLM à grande échelle

Une étude démontre que l'instabilité du pipeline parallèle asynchrone dépend du choix d'optimiseur, pas d'une limite intrinsèque.

arXiv cs.AI · cs.LG · cs.CL·Philip Zmushko, Egor Petrov, Nursultan Abdullaev, Mikhail Khrushchev·29 juin 2026

Image · Source originale

Le Pipeline Parallelism asynchrone élimine les bulles de pipeline mais introduit un retard de gradient jugé instable. Les auteurs montrent que cette dégradation dépend fortement de l'optimiseur : AdamW souffre sévèrement sous un délai d'une étape, tandis que Muon s'avère robuste. Une correction inspirée de l'Error Feedback est proposée, avec une analyse théorique de convergence et des évaluations sur des modèles jusqu'à 10 milliards de paramètres.

Chaleur 37

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#pipeline-parallelism #LLM #pretraining #optimiseur #asynchrone