Toutes les news taguées avec ce sujet.
Une couche de préconditionnement polynomial stabilise le spectre des valeurs singulières pendant l'entraînement, sans surcoût à l'inférence.
Une méthode permet d'entraîner des RNN en parallèle sans BPTT, en réduisant la tâche à un apprentissage supervisé sur des transitions mémoire.
Face à la saturation du pré-entraînement classique, q0 propose d'explorer une population de modèles en parallèle plutôt qu'un seul modèle raffiné.
Dwarkesh Patel décortique pourquoi les runs de pré-entraînement échouent, entre causalité brisée et biais introduits dans les architectures MoE.
Pion propose une alternative à Adam et Muon pour l'entraînement des LLM en conservant les valeurs singulières des matrices de poids tout au long du processus.
AllenAI présente EMO, une approche MoE où la spécialisation des experts émerge naturellement du pré-entraînement sans supervision explicite.
EMO est une architecture MoE qui permet d'utiliser un sous-ensemble d'experts de façon indépendante, sans dégradation sévère des performances.