RECHERCHE

SETA : apprentissage continu sans tâche via des experts creux et décomposition en sous-espaces

Un nouveau framework MoE décompose les paramètres des LLM en experts spécifiques et partagés pour résoudre l'oubli catastrophique en apprentissage continu.

arXiv cs.AI · cs.LG · cs.CL·Fatema Siddika, Md Anwar Hossen, Tanwi Mallick, Ali Jannesari·5 juin 2026

Image · Source originale

SETA (Mixture of Sparse Experts for Task-Agnostic Continual Learning) propose une décomposition adaptative en sous-espaces creux pour séparer connaissances spécifiques et partagées dans les LLM. Un mécanisme d'ancrage élastique et une régularisation par routage protègent conjointement les poids partagés. Les expériences sur LLaMA-2 7B et Qwen3-4B montrent une meilleure rétention des connaissances anciennes et un transfert rétroactif amélioré.

Chaleur 4

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#continual-learning #MoE #LLM #catastrophic-forgetting #fine-tuning