Toutes les news taguées avec ce sujet.
Une étude théorique démontre que les Transformers possèdent une capacité naturelle à produire des représentations compactes et efficaces.
Une étude remet en question l'architecture QKV classique des transformers et explore si les trois projections sont toutes nécessaires.
GST fusionne propagation locale et contextualisation inter-graphes à chaque couche, surpassant DeepSets et SetTransformer sur plusieurs benchmarks.
Le CEO de MatX et ex-ingénieur TPU chez Google explique le fonctionnement des chips, des portes logiques aux architectures modernes.
En « lésionnant » des LLM comme on le ferait avec un cerveau endommagé, des chercheurs cartographient l'organisation fonctionnelle émergente du traitement du langage.
Un développeur défend l'idée que la solution optimale pour la mémoire des agents en 2026 repose sur des fichiers Markdown versionnés plutôt que sur des bases vectorielles complexes.
Une architecture d'instruction-tuning à flux parallèles permettrait aux LLM d'agir, lire et raisonner simultanément, brisant le goulot d'étranglement séquentiel des agents actuels.
Une nouvelle architecture remplace les boucles instables des Transformers récurrents par un mécanisme de point fixe à mémoire constante et convergence adaptative.
Un développeur argue que faire communiquer des agents LLM via du texte libre est une erreur de conception, et propose une alternative structurée.
Des chercheurs proposent DECO, une architecture MoE qui n'active que 20 % des experts tout en égalant les performances de modèles denses, avec un speedup de 3× sur matériel réel.
Une startup présente Interfaze, une architecture inédite censée surpasser les transformers classiques en précision sur des tâches à grande échelle.
Moonshot AI dévoile une nouvelle architecture d'attention linéaire conçue pour combiner expressivité et efficacité computationnelle.
UniPool remet en cause la convention MoE d'un pool d'experts par couche en proposant un réservoir global unique, réduisant la croissance des paramètres tout en améliorant la perplexité.
Un développeur plaide pour structurer les agents IA avec du vrai flux de contrôle plutôt que d'empiler les instructions dans les prompts.