Toutes les news taguées avec ce sujet.
Une étude contrôlée montre que l'ancrage des signaux de filtrage dans la source améliore la fidélité, et que les échantillons rejetés peuvent être récupérés systématiquement.
Des chercheurs proposent Q-target, un framework qui réinterprète le SFT comme un problème de conception de distribution de probabilités au niveau du token.
Une méthodologie de bootstrapping sans scraping pour entraîner des modèles NMT sur une langue indigène à très faibles ressources.
Un nouveau framework MoE décompose les paramètres des LLM en experts spécifiques et partagés pour résoudre l'oubli catastrophique en apprentissage continu.
Un projet de hackathon Hugging Face recréant les modes de raisonnement de personnalités célèbres via de petits modèles de langage.
Anthropic détaille comment adapter Claude aux tâches de chimie, entre fine-tuning spécialisé et évaluation rigoureuse des capacités scientifiques.
Un hypernetwork produit des adapters LoRA spécifiques à chaque dépôt, éliminant le surcoût de tokens à l'inférence tout en absorbant l'évolution du code.
Un développeur explore le fine-tuning d'un LLM pour imiter le style de documentation technique des années 1995, sobre et fonctionnel.
TailLoR exploite la décomposition spectrale des poids pré-entraînés pour réduire les interférences entre tâches en apprentissage continu.
NVIDIA et Hugging Face publient un guide complet pour adapter le modèle de reconnaissance vocale Nemotron 3.5 ASR à des contextes spécifiques.
Une reformulation du problème RL remplace la récompense scalaire par une distribution, faisant émerger la diversité comportementale sans sacrifier la performance.
Un framework agentic reformule le reward modeling comme l'exécution d'une compétence d'évaluation réutilisable, unifiant règles, références et rubriques.
Le DPO, technique d'alignement popularisée pour les assistants conversationnels, trouve des applications bien plus larges dans l'écosystème IA.
DrPO propose une méthode d'alignement par préférence pour les générateurs text-to-image déterministes en un seul forward pass, sans rétropropagation de la reward.
Une première étude systématique révèle comment les MDLMs démasquent les tokens et propose Graph-LLaDA pour mieux encoder les structures relationnelles.
La taille d'un modèle ne garantit pas les meilleures performances en production. La spécialisation sectorielle surpasse souvent les géants généralistes.
Hugging Face présente une méthode pour transférer des milliers de milliards de paramètres lors du fine-tuning en ligne grâce à la synchronisation de delta weights.
Une nouvelle méthode de post-entraînement utilise la segmentation d'image comme proxy pour aligner compréhension et génération visuelle dans un seul modèle.
Hugging Face détaille comment adapter le modèle Cosmos Predict 2.5 de NVIDIA via LoRA et DoRA pour générer des vidéos de robots.
Des chercheurs publient le premier pipeline entièrement ouvert pour construire des LLM d'aide à la décision clinique, données et entraînement inclus.
Des LLMs fine-tunés sur des documents signalant explicitement qu'une affirmation est fausse finissent par la croire vraie — un phénomène aux implications sérieuses pour la safety.
Un framework de communication entre agents LLM qui remplace les messages textuels par des perturbations LoRA transitoires, réduisant les tokens traités de 83 %.
Un système en deux étapes transcrit et traduit le Wardaman, langue aborigène australienne menacée, à partir de seulement 6 heures d'audio annoté.
Pion propose une alternative à Adam et Muon pour l'entraînement des LLM en conservant les valeurs singulières des matrices de poids tout au long du processus.
La dépréciation des APIs de fine-tuning d'OpenAI ravive une question centrale : le fine-tuning est-il en train de disparaître du toolkit des ingénieurs IA ?
NVIDIA identifie les causes de friction dans le déploiement de modèles IA et propose des solutions pour fluidifier le passage de l'entraînement à la production.
Un framework diagnostique sans entraînement révèle, token par token, quand la distillation on-policy améliore ou dégrade l'apprentissage des modèles de raisonnement.
Un nouveau benchmark financier à grande échelle compare LLMs, modèles tabulaires et méthodes classiques sur la prédiction de faillite d'entreprises.
Élargir la fenêtre de contexte des LLM dégrade la coopération dans les dilemmes sociaux multi-agents — un phénomène contre-intuitif documenté sur 7 modèles et 4 jeux.
Un framework de RL où les récompenses sont décomposées en critères pondérés et vérifiables, notés par un LLM juge, améliore le transfert vers de nouveaux benchmarks.