RECHERCHE

Muown effectue implicitement une décroissance angulaire du pas d'apprentissage

Des chercheurs montrent que l'optimiseur Muown opère sur une géométrie riemannienne et proposent AngularMuown, une version améliorée avec un multiplicateur angulaire explicite.

arXiv cs.AI · cs.LG · cs.CL·Florian Hübler, Kai Lion, Antonio Orvieto, Niao He·22 juin 2026

Image · Source originale

Les optimiseurs matrix-aware comme Muon et Muown montrent de bonnes performances pour le pré-entraînement de Transformers. Cette étude démontre que la mise à jour directionnelle de Muown équivaut à un pas riemannien sur des directions normalisées. Les auteurs proposent AngularMuown, qui optimise directement sur ces directions avec un multiplicateur angulaire découplé de la magnitude radiale. La méthode surpasse Muown et prend la tête de la compétition modded nanoGPT, avec des résultats confirmés sur des modèles MoE jusqu'à 1,1 milliard de paramètres.

Chaleur 14

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#optimisation #transformers #MoE #pre-training #riemannian