RECHERCHE

La suppression radiale accélère la généralisation algorithmique : analyse géométrique du grokking

Des chercheurs montrent qu'une pénalité de norme simple peut accélérer le grokking jusqu'à 6x en contraignant les représentations cachées sur une hypersphère.

arXiv cs.AI · cs.LG · cs.CL·Srijan Tiwari, Aditya Chauhan, Manjot Singh·30 juin 2026

Image · Source originale

Les auteurs analysent géométriquement pourquoi les réseaux de neurones mémorisent avant de généraliser sur des tâches algorithmiques. Ils formalisent une décomposition radiale-angulaire de la dynamique de l'espace d'activation et montrent que l'inflation radiale des représentations, sous optimisation par entropie croisée, retarde la généralisation. Une pénalité de norme contraignant les activations à une hypersphère de rayon √d accélère le grokking jusqu'à 6x sur l'arithmétique modulaire et réduit de moitié le nombre de pas pour un nanoGPT de 10M de paramètres.

Chaleur 30

Pertinence 68

Nouveauté 74

OUVRIR LA SOURCE ↗

#grokking #généralisation #géométrie #régularisation #transformers