RECHERCHE
Comprendre l'in-context learning pour la régression non linéaire avec les Transformers
Une étude théorique montre comment les mécanismes d'attention permettent aux Transformers de réaliser des features non linéaires pour l'ICL.
arXiv cs.AI · cs.LG · cs.CL·Alexander Hsu, Zhaiming Shen, Wenjing Liao, Rongjie Lai·6 mai 2026

Image · Source originale
Des chercheurs proposent un cadre théorique pour analyser l'in-context learning (ICL) dans un contexte de régression non linéaire, au-delà des modèles linéaires habituellement étudiés. En exploitant les mécanismes d'attention, ils construisent explicitement des réseaux Transformer capables de réaliser des features non linéaires (polynômes, splines). Ils établissent des bornes d'erreur de généralisation finite-sample en fonction de la longueur de contexte et de la taille du jeu d'entraînement, validées numériquement sur des tâches synthétiques.