RECHERCHE
Les méthodes de gradient adaptatif convergent-elles sous bruit à queue lourde ? Étude de cas d'AdaGrad
Une étude théorique démontre pour la première fois la convergence d'AdaGrad en optimisation non-convexe sous bruit à queue lourde, sans clipping ni connaissance préalable du tail index.
arXiv cs.AI · cs.LG · cs.CL·Zijian Liu·18 mai 2026

Image · Source originale
De nombreux problèmes d'apprentissage automatique impliquent un bruit de gradient à queue lourde. Ce travail établit la première borne de convergence prouvable pour AdaGrad en optimisation non-convexe lorsque l'indice de queue p satisfait 4/3 < p ≤ 2, sans nécessiter de connaissance préalable de p. Les auteurs montrent également qu'AdaGrad ne peut atteindre le taux minimax optimal, et que la variante AdaGrad-Norm offre un taux amélioré pour tout 1 < p ≤ 2 sous une hypothèse légère supplémentaire.