RECHERCHE
Le délai de gradient d'une étape n'est pas un obstacle au pré-entraînement asynchrone de LLM à grande échelle
Une étude démontre que l'instabilité du pipeline parallèle asynchrone dépend du choix d'optimiseur, pas d'une limite intrinsèque.
arXiv cs.AI · cs.LG · cs.CL·Philip Zmushko, Egor Petrov, Nursultan Abdullaev, Mikhail Khrushchev·29 juin 2026

Image · Source originale
Le Pipeline Parallelism asynchrone élimine les bulles de pipeline mais introduit un retard de gradient jugé instable. Les auteurs montrent que cette dégradation dépend fortement de l'optimiseur : AdamW souffre sévèrement sous un délai d'une étape, tandis que Muon s'avère robuste. Une correction inspirée de l'Error Feedback est proposée, avec une analyse théorique de convergence et des évaluations sur des modèles jusqu'à 10 milliards de paramètres.