Toutes les news taguées avec ce sujet.
Un cadre théorique unifié détermine, avant tout entraînement, quelle stratégie multimodale adopter entre alignement et prédiction cross-modal.
Gwern explore comment le régime dit « catapult » dans l'entraînement des réseaux de neurones pourrait expliquer l'émergence de représentations cognitives proches de celles du cerveau humain.
Un papier ArXiv propose un cadre théorique unifiant les arbres de décision et les modèles de diffusion, deux familles algorithmiques jusqu'ici disjointes.
Une étude théorique démontre que les Transformers possèdent une capacité naturelle à produire des représentations compactes et efficaces.
Une étude théorique démontre que tout algorithme résolvant un problème min-max non convexe-non concave exige un nombre exponentiel de requêtes.
Des chercheurs établissent des garanties théoriques rigoureuses pour la quantification vectorielle via la transformée de Hadamard aléatoire, à coût computationnel réduit.
Une analyse mathématique rigoureuse montre comment les tokens se concentrent rapidement dans les Transformers profonds à l'inférence, via des outils de systèmes multi-particules.
Une étude théorique montre comment les mécanismes d'attention permettent aux Transformers de réaliser des features non linéaires pour l'ICL.