RECHERCHE

Pré-entraînement de réseaux récurrents sans récurrence

Une méthode permet d'entraîner des RNN en parallèle sans BPTT, en réduisant la tâche à un apprentissage supervisé sur des transitions mémoire.

arXiv cs.AI · cs.LG · cs.CL·Akarsh Kumar, Phillip Isola·4 juin 2026

Image · Source originale

Le Supervised Memory Training (SMT) contourne entièrement la rétropropagation temporelle (BPTT) en reformulant l'entraînement des RNN comme un apprentissage supervisé sur des étiquettes de transition mémoire à un pas. Un encodeur Transformer génère ces étiquettes via un objectif d'état prédictif. SMT permet un entraînement parallèle dans le temps avec un gradient stable en O(1), surpassant BPTT sur la modélisation du langage et des séquences de pixels pour capturer les dépendances à longue portée.

Chaleur 3

Pertinence 65

Nouveauté 78

OUVRIR LA SOURCE ↗

#RNN #pré-entraînement #transformer #long-range dependencies #parallélisme