Toutes les news taguées avec ce sujet.
Un modèle pré-entraîné sur données synthétiques résout de nouvelles tâches MIL en un seul passage avant, sans mise à jour de gradient.
Une étude teste si les activations MLP des LLM peuvent guider la sélection d'exemples en in-context learning — et conclut par la négative.
Une étude théorique montre comment les mécanismes d'attention permettent aux Transformers de réaliser des features non linéaires pour l'ICL.