Toutes les news taguées avec ce sujet.
Un framework sans entraînement qui optimise la compression du KV cache durant le décodage, en allouant dynamiquement les ressources par couche et par tête d'attention.
Une nouvelle méthode de steering basée sur des sondes d'activation prédictives réduit les dégradations de qualité dans les grands modèles de raisonnement.
Une étude montre que des critiques alignées pas-à-pas sur le raisonnement du modèle surpassent les méthodes classiques de self-distillation de plus de 16 points.
Des chercheurs proposent Q-target, un framework qui réinterprète le SFT comme un problème de conception de distribution de probabilités au niveau du token.
Une procédure de post-entraînement permet à un seul LLM d'internaliser la dynamique de débat entre plusieurs agents sans infrastructure externe.
Une nouvelle méthode de credit assignment réduit la variance du fine-tuning RL pour les modèles Chain-of-Thought sans surcoût de génération.
NVIDIA présente Nemotron Ultra 3, un modèle conçu pour les workflows multi-agents à longues séquences de tokens, promettant efficacité et rapidité.
Des chercheurs montrent que les traces d'échec des LLMs encodent une structure de récupérabilité exploitable sans accès aux poids.
DistIL propose une alternative à RLVR en exploitant des feedbacks riches (traces, corrections) via une cross-entropie directe garantissant une amélioration monotone des politiques.
Un nouveau système pipelines les étapes de raisonnement entre agents dès leur génération, réduisant la latence et améliorant la qualité des réponses.
Des chercheurs en mathématiques s'inquiètent de la capacité croissante des systèmes d'IA à résoudre des problèmes avancés, soulevant des questions sur l'avenir de la discipline.
Un agent contrôleur guide dynamiquement le raisonnement d'un LLM gelé via un processus de décision markovien, réduisant les tokens sans sacrifier la précision.
Une étude révèle que les LRMs peinent à aligner leur confiance interne et leur expression linguistique, malgré des chaînes de raisonnement étendues.
Un nouveau benchmark évalue la capacité des LLMs à inférer des règles cachées à partir de démonstrations et à les appliquer en plusieurs étapes.
Une équipe propose d'utiliser la génération de questions à l'inférence pour sonder l'état interne d'un LLM et prédire la correction de ses raisonnements.
Une nouvelle méthode de reinforcement learning combine distracteurs hiérarchiques et récompenses basées sur des rubriques pour améliorer le raisonnement multi-sauts des LLM.
Un nouveau framework deux étapes combine un générateur léger à l'entraînement et un générateur haute capacité à l'inférence pour produire des vidéos fidèles sans sacrifier le raisonnement.
Des chercheurs de Goodfire AI découvrent comment un LLM effectue des calculs géométriques en interne, ouvrant une fenêtre sur la mécanique des transformers.
Un seul checkpoint pour comprendre, raisonner, imaginer et agir : Pelican-Unified 1.0 propose un paradigme unifié pour la robotique fondationnelle.
Un framework de test-time compute qui sélectionne le meilleur raisonnement parmi plusieurs candidats en parallèle via des comparaisons par paires et un score Bradley-Terry.
Des chercheurs proposent un pipeline multi-étapes utilisant des LLM pour transformer des textes en graphes d'arguments structurés.
Une nouvelle architecture remplace les boucles instables des Transformers récurrents par un mécanisme de point fixe à mémoire constante et convergence adaptative.
Un nouveau benchmark révèle que tous les systèmes de mémoire testés s'effondrent sur le raisonnement de dépendance, avec des taux de précision proches de zéro.
Un framework diagnostique sans entraînement révèle, token par token, quand la distillation on-policy améliore ou dégrade l'apprentissage des modèles de raisonnement.
Un cadre d'orchestration guidé par spécifications qui maintient des engagements sémantiques tout au long du cycle de génération d'images.
Un framework de RL où les récompenses sont décomposées en critères pondérés et vérifiables, notés par un LLM juge, améliore le transfert vers de nouveaux benchmarks.
Un nouveau framework réduit de 47 % les tokens consommés par le voting pondéré en filtrant les traces de raisonnement sémantiquement redondantes.
Un nouveau framework combine la prédiction conforme et l'exploration guidée par PUCT pour garantir statistiquement la couverture des réponses dans les systèmes KGQA.
Un framework permet à des agents LLM de découvrir automatiquement des stratégies de test-time scaling, surpassant les approches conçues manuellement pour moins de 40 $.
Une étude examine la capacité des grands modèles de langage à formaliser des systèmes distribués complexes dans le langage de spécification TLA+.