RECHERCHE
La suppression radiale accélère la généralisation algorithmique : analyse géométrique du grokking
Des chercheurs montrent qu'une pénalité de norme simple peut accélérer le grokking jusqu'à 6x en contraignant les représentations cachées sur une hypersphère.
arXiv cs.AI · cs.LG · cs.CL·Srijan Tiwari, Aditya Chauhan, Manjot Singh·30 juin 2026

Image · Source originale
Les auteurs analysent géométriquement pourquoi les réseaux de neurones mémorisent avant de généraliser sur des tâches algorithmiques. Ils formalisent une décomposition radiale-angulaire de la dynamique de l'espace d'activation et montrent que l'inflation radiale des représentations, sous optimisation par entropie croisée, retarde la généralisation. Une pénalité de norme contraignant les activations à une hypersphère de rayon √d accélère le grokking jusqu'à 6x sur l'arithmétique modulaire et réduit de moitié le nombre de pas pour un nanoGPT de 10M de paramètres.