Toutes les news taguées avec ce sujet.
Un article technique de vulgarisation qui décortique les mécanismes internes des grands modèles de langage, de la tokenisation à l'inférence.
Une méthode permet d'entraîner des RNN en parallèle sans BPTT, en réduisant la tâche à un apprentissage supervisé sur des transitions mémoire.
NVIDIA publie Nemotron Ultra, une architecture open-weights combinant Mixture of Experts, Mamba et Transformer pour des tâches de raisonnement complexes.
Un Transformer de style GPT entraîné sur 2 milliards de frames de motion capture pour contrôler des humanoïdes sans données supplémentaires.
Des chercheurs proposent NORMA, un modèle conditionnel basé sur les transformers, pour interpréter les biomarqueurs sanguins en combinant historique individuel et données populationnelles.
Une approche feed-forward pour le relighting d'images mono-source en moins d'un dixième de seconde, combinant rendu physique et synthèse neuronale.
Des chercheurs proposent une architecture unifiée combinant agents génératifs et forecasting transformer pour moderniser la facturation des distributeurs d'énergie.
IVGT propose une représentation neuronale continue de scènes 3D à partir d'images multi-vues non calibrées, sans recourir à des pointmaps explicites.
Un projet expérimental qui applique les fondements mathématiques de la théorie des catégories pour architecturer un framework ML en Rust.
Des chercheurs combinent prévision cardiaque et apprentissage multi-tâches sur smartwatch pour détecter les rechutes psychotiques au quotidien.
Une startup présente Interfaze, une architecture inédite censée surpasser les transformers classiques en précision sur des tâches à grande échelle.
Une étude applique les sparse autoencoders à PatchTST et constate que les représentations internes n'exploitent pas la superposition pour performer.