RECHERCHE

Comprendre l'in-context learning pour la régression non linéaire avec les Transformers

Une étude théorique montre comment les mécanismes d'attention permettent aux Transformers de réaliser des features non linéaires pour l'ICL.

arXiv cs.AI · cs.LG · cs.CL·Alexander Hsu, Zhaiming Shen, Wenjing Liao, Rongjie Lai·6 mai 2026

Image · Source originale

Des chercheurs proposent un cadre théorique pour analyser l'in-context learning (ICL) dans un contexte de régression non linéaire, au-delà des modèles linéaires habituellement étudiés. En exploitant les mécanismes d'attention, ils construisent explicitement des réseaux Transformer capables de réaliser des features non linéaires (polynômes, splines). Ils établissent des bornes d'erreur de généralisation finite-sample en fonction de la longueur de contexte et de la taille du jeu d'entraînement, validées numériquement sur des tâches synthétiques.

Chaleur 0

Pertinence 60

Nouveauté 72

OUVRIR LA SOURCE ↗

#in-context learning #transformers #régression non linéaire #théorie #attention