RECHERCHE
Pré-entraînement de réseaux récurrents sans récurrence
Une méthode permet d'entraîner des RNN en parallèle sans BPTT, en réduisant la tâche à un apprentissage supervisé sur des transitions mémoire.
arXiv cs.AI · cs.LG · cs.CL·Akarsh Kumar, Phillip Isola·4 juin 2026

Image · Source originale
Le Supervised Memory Training (SMT) contourne entièrement la rétropropagation temporelle (BPTT) en reformulant l'entraînement des RNN comme un apprentissage supervisé sur des étiquettes de transition mémoire à un pas. Un encodeur Transformer génère ces étiquettes via un objectif d'état prédictif. SMT permet un entraînement parallèle dans le temps avec un gradient stable en O(1), surpassant BPTT sur la modélisation du langage et des séquences de pixels pour capturer les dépendances à longue portée.