dimanche 26 juillet 2026Connexion →

36 SOURCES ACTIVES+357 / 7J

La veille de l'intelligence artificielle

Rechercher · papers, agents, LeCun…⌘K ALERTES43

À la une Rechercher Topics Entités Modèles Live Alertes Réglages

Sauvegardés · 0

La newsletter Fellow

Le briefing IA, chaque matin à 8h Paris.

Adresse email

FELLOW1748 items ingérés36 sources · 17 acteurs →Newsletter →Méthodologie →

30 items

#fine-tuning

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 50
MedGame : la ludification narrative par LLM pour l'éducation médicale
Un framework transforme des cas cliniques en jeux interactifs structurés via une architecture à double moteur.
RECHERCHE
heat 35
DONDO : modèles ouverts de reconnaissance vocale w2v-BERT pour les langues africaines
Vingt-six modèles ASR en licence Apache-2.0 couvrent 27 langues africaines, avec des taux d'erreur mots comparables aux baselines monolingues.
OUTILS
nvidiaheat 50
NVIDIA : personnaliser Nemotron 3 Nano avec Prime Intellect Lab
Une nouvelle solution permet de simplifier et d'accélérer le fine-tuning du modèle Nemotron 3 Nano via Prime Intellect Lab.
RECHERCHE
heat 25
LKValues : aligner les LLM sur les valeurs sociétales sri-lankaises
Un nouveau benchmark et corpus d'instruction en cinghalais-anglais pour corriger le biais occidental de l'alignement des valeurs des LLM.

RECHERCHE

heat 35

ISO : une pile d'optimisation native pour le RLVR

Une nouvelle approche exploite la structure spectrale des poids pour accélérer et fusionner des modèles entraînés par RLVR, avec des gains d'efficacité mesurables.

RECHERCHE

heat 30

Adaptation et récupération sélectives par espace d'états pour le raisonnement des LLM

Deux nouveaux adaptateurs inspirés de Mamba ajoutent une mémoire dynamique au LoRA, avec des gains mesurables sur le raisonnement multi-sauts.

RECHERCHE

heat 45

PPL-Factory : sélection de données pour le fine-tuning

Un framework task-aware et budget-aware qui optimise le fine-tuning des LLM en sélectionnant 1% à 10% des données.

RECHERCHE

heat 25

OR Else : une région de confiance différentiable pour l'optimisation de politique

Une alternative lisse au clipping de PPO et GRPO testée sur Llama-3.2-1B pour le post-entraînement de LLM par RLHF.

RECHERCHE

heat 35

Les multiples facettes de la similarité visuelle : une métrique perceptuelle d'image guidée par texte

Un nouveau benchmark et une métrique VLM permettent de conditionner la similarité visuelle selon un aspect précis (forme, couleur, etc.).

RECHERCHE

heat 35

CRAFT : regrouper les rubriques d'évaluation pour diagnostiquer les faiblesses des LLM et cibler le fine-tuning

Une méthode qui transforme les évaluations par rubrique en diagnostic précis des capacités faibles d'un modèle, pour générer des données de fine-tuning ciblées.

OUTILS

heat 35

LoRA Speedrun : un classement public en temps réel pour les techniques de fine-tuning

Un leaderboard open source mesure la rapidité des différentes méthodes de fine-tuning LoRA sur des tâches standardisées.

OUTILS

huggingfaceheat 75

Fine-tuning vidéo et image à grande échelle avec NVIDIA NeMo

Hugging Face intègre NVIDIA NeMo Automodel à Diffusers pour accélérer l'entraînement distribué.

OUTILS

nvidiaheat 45

NVIDIA détaille le post-entraînement de Cosmos 3 en une journée via des agents autonomes

NVIDIA montre comment des agents de codage automatisés accélèrent l'adaptation de modèles de raisonnement visuel pour la production vidéo.

RECHERCHE

heat 40

Fusion multimodale en cascade par LoRA pour la reconnaissance d'actions médicales

Une approche basée sur LoRA fusionne progressivement plusieurs modalités pour la reconnaissance d'actions en formation médicale.

OUTILS

heat 55

Show HN : un agent entraîné par RL pour entraîner d'autres modèles via RL (pour environ 1 300 $)

Un développeur détaille un projet où un agent, lui-même entraîné par renforcement, orchestre l'entraînement RL d'autres modèles à faible coût.

RECHERCHE

heat 25

PAC-ACT : post-entraînement acteur-critique pour les transformers à découpage d'actions

Un framework de reinforcement learning affine les politiques robotiques pré-entraînées pour les tâches de manipulation industrielle à contact précis.

RECHERCHE

heat 52

Super Weights dans les LLMs et l'échec de l'entraînement sélectif

Les paramètres jugés critiques dans les LLMs ne sont pas pour autant les meilleurs cibles d'entraînement — une étude remet en question le concept de Super Weights.

RECHERCHE

heat 42

SLORR : régularisation low-rank légère et efficace pendant l'entraînement

Une méthode de régularisation sans état qui améliore la compressibilité des réseaux de neurones avec moins de 1 % de surcoût à l'entraînement.

RECHERCHE

heat 52

OpenCoF : raisonner par génération vidéo via le Chain-of-Frame

Un framework open-source qui transforme la génération vidéo en mécanisme de raisonnement séquentiel, alternatif au Chain-of-Thought textuel.

OUTILS

nvidiaheat 45

Génération de données synthétiques pour la recherche IA financière avec NVIDIA NeMo

NVIDIA détaille comment combler les lacunes des datasets financiers déséquilibrés grâce à la génération de données synthétiques via NeMo.

RECHERCHE

heat 42

DiaLLM : le fossé entre compréhension et génération des dialectes anglais

Des chercheurs montrent que les LLM comprennent les dialectes anglais mais peinent à les produire, et publient un benchmark contrôlé pour y remédier.

RECHERCHE

heat 62

AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles

Une méthode de feedback adaptatif ajuste dynamiquement la longueur du préfixe de solution fourni au modèle, doublant la précision de GRPO sur les problèmes mathématiques difficiles.

RECHERCHE

heat 42

Pitwall : des briefings de stratégie F1 en langage naturel, ancrés dans un moteur Monte Carlo temps réel

Un système de production génère des commentaires stratégiques F1 multilingues en garantissant la fidélité factuelle via un vérificateur de claims intégré à l'architecture.

RECHERCHE

heat 42

RSF-GLLM : combler le fossé sémantique dans les QA multi-sauts sur graphes de connaissances

Un framework hybride combinant raisonnement différentiable sur graphes et génération LLM pour améliorer le QA multi-sauts sur knowledge graphs.

RECHERCHE

heat 42

REDDIT : corriger la dérive temporelle dans les systèmes ASR sans oubli catastrophique

Un framework léger en deux étapes corrige la dérive des timestamps dans les modèles ASR autoregressifs sur les longues plages non-vocales, sans dégrader les autres capacités.

OUTILS

huggingfaceheat 62

LeRobot v0.6.0 : imaginer, évaluer, améliorer

Hugging Face publie une mise à jour majeure de sa bibliothèque robotique open-source LeRobot, avec de nouveaux outils d'évaluation et d'amélioration des politiques.

RECHERCHE

heat 62

Program-as-Weights : un paradigme de programmation pour les fonctions floues

PAW compile des spécifications en langage naturel en adaptateurs légers exécutables localement, rivalisant avec un LLM 32B avec 50× moins de mémoire.

RECHERCHE

heat 72

Une seule couche suffit-elle ? Un unique layer Transformer égale l'entraînement RL complet

Une étude montre qu'affiner un seul layer d'un Transformer via RL atteint des performances comparables à l'entraînement complet de tous les paramètres.

RECHERCHE

heat 52

RLVR augmenté de démonstrations humaines pour corriger les dérives du fine-tuning par récompenses vérifiables

Un framework adversarial générateur-discriminateur combine récompenses vérifiables et signal appris sur des données humaines pour pallier les limites du RLVR.

RECHERCHE

heat 62

AutoMem : apprentissage automatisé de la mémoire comme compétence cognitive pour les LLM

Un framework entraîne les LLM à gérer leur mémoire comme une compétence à part entière, multipliant par 2 à 4 les performances sur des tâches longues.