Toutes les news taguées avec ce sujet.
Une exploration interactive des mécanismes internes par lesquels les grands modèles de langage traitent les opérations arithmétiques, sans manipuler réellement des nombres.
Une étude théorique démontre que les Transformers possèdent une capacité naturelle à produire des représentations compactes et efficaces.
Une couche de préconditionnement polynomial stabilise le spectre des valeurs singulières pendant l'entraînement, sans surcoût à l'inférence.
Une étude remet en question l'architecture QKV classique des transformers et explore si les trois projections sont toutes nécessaires.
Une nouvelle méthode post-training compresse les LLMs en ciblant les sous-modules Attention et FeedForward de façon non contiguë, surpassant les approches par couches complètes.
Une étude contrôlée révèle comment les têtes d'attention se spécialisent en mécanismes positionnels ou symboliques selon la nature des tâches de raisonnement.
Une nouvelle formulation de l'attention remplace les affinités softmax par des opérateurs linéaires structurés pour mieux capturer la structure fonctionnelle globale.
Un nouveau modèle combine descriptions textuelles de capteurs et architecture JEPA pour produire des représentations universelles de séries temporelles multivariées.
DashAttention propose une alternative aux méthodes top-k figées en sélectionnant un nombre variable de blocs KV via la transformation α-entmax, tout en restant entièrement différentiable.
PaddleOCR intègre désormais un backend Transformers, ouvrant ses capacités OCR et de parsing documentaire à l'écosystème Hugging Face.
Une étude montre que les méthodes pour évaluer la redondance des couches de transformers ne sont pas interchangeables et influencent directement les décisions d'élagage.
Des chercheurs montrent qu'il est possible d'implanter des backdoors dans les LLM sans modifier le texte d'entrée, en exploitant l'encodage positionnel.
Des chercheurs proposent un mécanisme hybride quantique-classique pour dépasser les limites des transformers et des SSMs sur les longues séquences.
Une nouvelle architecture remplace les boucles instables des Transformers récurrents par un mécanisme de point fixe à mémoire constante et convergence adaptative.
Une analyse mathématique rigoureuse montre comment les tokens se concentrent rapidement dans les Transformers profonds à l'inférence, via des outils de systèmes multi-particules.
Moonshot AI dévoile une nouvelle architecture d'attention linéaire conçue pour combiner expressivité et efficacité computationnelle.
Un développeur montre qu'un auto-encodeur à base de polynômes dépasse l'analyse en composantes principales pour compresser les embeddings de transformeurs.
Une étude théorique montre comment les mécanismes d'attention permettent aux Transformers de réaliser des features non linéaires pour l'ICL.