30 items

#reinforcement-learning

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 55
OpenForgeRL : entraînement d'agents harness-native
Un framework open-source pour entraîner des agents de bout en bout via des infrastructures d'inférence complexes.
RECHERCHE
heat 45
MIRROR : optimiser le raisonnement multi-modal par vues croisées
Une méthode RL exploitant les vues texte et image pour améliorer la cohérence des modèles de vision-language.
RECHERCHE
heat 25
Vers la télé-manipulation locomotrice de robots humanoïdes miniatures via VR et apprentissage par renforcement
Un système de téléprésence combinant réalité virtuelle et RL adapté aux robots humanoïdes miniatures, testé sur la plateforme ROBOTIS OP3.
RECHERCHE
heat 35
Notes personnelles : les LLM peuvent-ils tirer parti d'abstractions expérientielles ?
Une étude explore si les LLM peuvent extraire des stratégies réutilisables de leurs propres traces de résolution, comme le font les humains avec l'expérience.
RECHERCHE
heat 45
Off-Context GRPO : apprendre à raisonner sur des problèmes difficiles
Une variante du GRPO utilisant des informations privilégiées guide le modèle vers des solutions correctes sans déstabiliser l'apprentissage.
RECHERCHE
heat 35
Copier moins, ancrer plus : corriger la copie répétitive dans le raisonnement long-contexte via un RL sensible aux preuves
Une étude identifie un défaut fréquent des LLM en contexte long : recopier le texte source au lieu de raisonner, et propose une méthode de RL pour y remédier.
RECHERCHE
heat 45
ToolSciVer : vérification scientifique multimodale par RL et outils visuels
Un cadre utilisant des outils spécialisés et le reinforcement learning pour améliorer la vérification de réclamations scientifiques.
RECHERCHE
heat 35
Comprendre le raisonnement des LLM, du pretraining au post-training via le RL
Une étude sur les échecs comme banc d'essai contrôlé révèle comment les choix de pretraining déterminent les gains obtenus par le RL post-training.
RECHERCHE
heat 30
DADiff : adaptation de politique par diffusion pour l'apprentissage par renforcement inter-domaines
Un nouveau cadre basé sur la diffusion estime l'écart de dynamique entre domaines pour adapter des politiques de RL avec peu d'interactions cible.
RECHERCHE
heat 35
Quand l'optimiseur Muon améliore-t-il l'apprentissage par renforcement agentique ?
Une étude exploratoire compare Muon à AdamW en post-training RL sur des tâches agentiques à récompense éparse, avec des gains significatifs sous certaines conditions.
RECHERCHE
heat 25
Un apprentissage par renforcement enrichi par la physique pour le contrôle optimal en temps réel de systèmes dynamiques
Une nouvelle méthode combine RL et différentiabilité des dynamiques physiques pour réduire drastiquement le nombre d'interactions nécessaires.
RECHERCHE
heat 40
MeanFlowNFT : le RL forward-process pour les générateurs MeanFlow
Une méthode RL adaptée aux générateurs de vélocité moyenne qui optimise le récompense sans altérer la vitesse d'échantillonnage.
RECHERCHE
heat 10
Algorithmes pour l'ordonnancement de remplacement par bloc
Optimisation du remplacement préventif de machines via des approches bandit et estimation non paramétrique.
RECHERCHE
heat 55
Ring-Zero : le RL sans supervision porté à mille milliards de paramètres pour un raisonnement émergent
Une équipe de recherche fait passer l'apprentissage par renforcement pur (« zero RL ») à l'échelle du trillion de paramètres, avec des capacités de raisonnement qui émergent sans supervision.
RECHERCHE
heat 45
TRACE : attribution de récompense au niveau des tours pour agents à long horizon
Une méthode d'apprentissage par renforcement affine le crédit accordé à chaque action d'un agent, sans critique additionnelle ni supervision coûteuse.
RECHERCHE
heat 25
Lighthouse RL : optimiser le dimensionnement de circuits analogiques avec moins d'essais
Une nouvelle stratégie de reset guidé par des configurations performantes améliore l'efficacité et la généralisation du RL pour la conception de circuits.
RECHERCHE
heat 25
L'exposant de Lyapunov comme récompense dense pour stabiliser un pendule inversé par RL
Une méthode de reinforcement learning utilise l'exposant de Lyapunov pour aller au-delà du pendule de Kapitza et stabiliser un pendule inversé.
RECHERCHE
heat 25
Apprentissage par renforcement guidé par la connaissance et le gradient pour les MDP à actions paramétrées
Une méthode neuro-symbolique combine base de connaissances Datalog et raffinement par gradient pour améliorer l'efficacité d'échantillonnage en RL.
RECHERCHE
heat 45
TerraZero : simulation procédurale pour l'autopilotage sans démonstration
Un simulateur de conduite rapide et réaliste capable d'entraîner des agents par reinforcement learning à grande échelle.
OUTILS
nvidiaheat 50
Workflow de recherche autonome avec agents RL et NVIDIA NeMo
NVIDIA présente comment des agents IA dotés de compétences RL peuvent automatiser l'exécution de workflows ML complexes.
RECHERCHE
heat 30
Recherche d'architectures neuronales frugale : essaims et Transformer pour du NAS accessible
Un cadre hybride combinant Transformer et Artificial Bee Colony permet de faire du NAS sur GPU grand public, en quelques heures seulement.
OUTILS
heat 55
Show HN : un agent entraîné par RL pour entraîner d'autres modèles via RL (pour environ 1 300 $)
Un développeur détaille un projet où un agent, lui-même entraîné par renforcement, orchestre l'entraînement RL d'autres modèles à faible coût.
RECHERCHE
heat 35
La « leçon des 4 bits » : stabilité et performance dans l'apprentissage par renforcement en NVFP4
Un article technique explore comment entraîner des modèles en RL avec le format de quantification NVFP4 sans sacrifier la stabilité de l'entraînement.
RECHERCHE
heat 45
Une méthode minimaliste de RL guidé par retargeting pour la manipulation dextre
REGRIND apprend des politiques de manipulation dextre à partir d'une seule démonstration humaine, avec transfert direct vers le matériel réel.
RECHERCHE
heat 25
PAC-ACT : post-entraînement acteur-critique pour les transformers à découpage d'actions
Un framework de reinforcement learning affine les politiques robotiques pré-entraînées pour les tâches de manipulation industrielle à contact précis.
RECHERCHE
heat 25
Semantic Pareto-DQN : un cadre de reinforcement learning multi-objectif pour la détection d'anomalies financières
Un modèle combine LLM et RL multi-objectif pour éviter l'effondrement vers la classe majoritaire dans la détection de fraude, sans rééchantillonnage des données.
RECHERCHE
heat 62
AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles
Une méthode de feedback adaptatif ajuste dynamiquement la longueur du préfixe de solution fourni au modèle, doublant la précision de GRPO sur les problèmes mathématiques difficiles.
RECHERCHE
heat 62
Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement
Deux modèles s'affrontent et se notent mutuellement pour améliorer leur raisonnement, sans étiquettes de processus ni reward model externe.
OUTILS
heat 38
FootsiesGym : un benchmark de jeu de combat pour l'apprentissage par renforcement en deux joueurs
Un environnement open-source basé sur le jeu de combat minimaliste Footsies pour étudier les interactions stratégiques cycliques et non transitives.
RECHERCHE
heat 62
L'apprentissage par renforcement avec feedback métacognitif fait émerger l'incertitude dans les LLM
Une nouvelle approche combine RL et feedback métacognitif pour que les LLM expriment leur incertitude de façon calibrée.

30 items

#reinforcement-learning

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 55
OpenForgeRL : entraînement d'agents harness-native
Un framework open-source pour entraîner des agents de bout en bout via des infrastructures d'inférence complexes.
RECHERCHE
heat 45
MIRROR : optimiser le raisonnement multi-modal par vues croisées
Une méthode RL exploitant les vues texte et image pour améliorer la cohérence des modèles de vision-language.
RECHERCHE
heat 25
Vers la télé-manipulation locomotrice de robots humanoïdes miniatures via VR et apprentissage par renforcement
Un système de téléprésence combinant réalité virtuelle et RL adapté aux robots humanoïdes miniatures, testé sur la plateforme ROBOTIS OP3.
RECHERCHE
heat 35
Notes personnelles : les LLM peuvent-ils tirer parti d'abstractions expérientielles ?
Une étude explore si les LLM peuvent extraire des stratégies réutilisables de leurs propres traces de résolution, comme le font les humains avec l'expérience.
RECHERCHE
heat 45
Off-Context GRPO : apprendre à raisonner sur des problèmes difficiles
Une variante du GRPO utilisant des informations privilégiées guide le modèle vers des solutions correctes sans déstabiliser l'apprentissage.
RECHERCHE
heat 35
Copier moins, ancrer plus : corriger la copie répétitive dans le raisonnement long-contexte via un RL sensible aux preuves
Une étude identifie un défaut fréquent des LLM en contexte long : recopier le texte source au lieu de raisonner, et propose une méthode de RL pour y remédier.
RECHERCHE
heat 45
ToolSciVer : vérification scientifique multimodale par RL et outils visuels
Un cadre utilisant des outils spécialisés et le reinforcement learning pour améliorer la vérification de réclamations scientifiques.
RECHERCHE
heat 35
Comprendre le raisonnement des LLM, du pretraining au post-training via le RL
Une étude sur les échecs comme banc d'essai contrôlé révèle comment les choix de pretraining déterminent les gains obtenus par le RL post-training.
RECHERCHE
heat 30
DADiff : adaptation de politique par diffusion pour l'apprentissage par renforcement inter-domaines
Un nouveau cadre basé sur la diffusion estime l'écart de dynamique entre domaines pour adapter des politiques de RL avec peu d'interactions cible.
RECHERCHE
heat 35
Quand l'optimiseur Muon améliore-t-il l'apprentissage par renforcement agentique ?
Une étude exploratoire compare Muon à AdamW en post-training RL sur des tâches agentiques à récompense éparse, avec des gains significatifs sous certaines conditions.
RECHERCHE
heat 25
Un apprentissage par renforcement enrichi par la physique pour le contrôle optimal en temps réel de systèmes dynamiques
Une nouvelle méthode combine RL et différentiabilité des dynamiques physiques pour réduire drastiquement le nombre d'interactions nécessaires.
RECHERCHE
heat 40
MeanFlowNFT : le RL forward-process pour les générateurs MeanFlow
Une méthode RL adaptée aux générateurs de vélocité moyenne qui optimise le récompense sans altérer la vitesse d'échantillonnage.
RECHERCHE
heat 10
Algorithmes pour l'ordonnancement de remplacement par bloc
Optimisation du remplacement préventif de machines via des approches bandit et estimation non paramétrique.
RECHERCHE
heat 55
Ring-Zero : le RL sans supervision porté à mille milliards de paramètres pour un raisonnement émergent
Une équipe de recherche fait passer l'apprentissage par renforcement pur (« zero RL ») à l'échelle du trillion de paramètres, avec des capacités de raisonnement qui émergent sans supervision.
RECHERCHE
heat 45
TRACE : attribution de récompense au niveau des tours pour agents à long horizon
Une méthode d'apprentissage par renforcement affine le crédit accordé à chaque action d'un agent, sans critique additionnelle ni supervision coûteuse.
RECHERCHE
heat 25
Lighthouse RL : optimiser le dimensionnement de circuits analogiques avec moins d'essais
Une nouvelle stratégie de reset guidé par des configurations performantes améliore l'efficacité et la généralisation du RL pour la conception de circuits.
RECHERCHE
heat 25
L'exposant de Lyapunov comme récompense dense pour stabiliser un pendule inversé par RL
Une méthode de reinforcement learning utilise l'exposant de Lyapunov pour aller au-delà du pendule de Kapitza et stabiliser un pendule inversé.
RECHERCHE
heat 25
Apprentissage par renforcement guidé par la connaissance et le gradient pour les MDP à actions paramétrées
Une méthode neuro-symbolique combine base de connaissances Datalog et raffinement par gradient pour améliorer l'efficacité d'échantillonnage en RL.
RECHERCHE
heat 45
TerraZero : simulation procédurale pour l'autopilotage sans démonstration
Un simulateur de conduite rapide et réaliste capable d'entraîner des agents par reinforcement learning à grande échelle.
OUTILS
nvidiaheat 50
Workflow de recherche autonome avec agents RL et NVIDIA NeMo
NVIDIA présente comment des agents IA dotés de compétences RL peuvent automatiser l'exécution de workflows ML complexes.
RECHERCHE
heat 30
Recherche d'architectures neuronales frugale : essaims et Transformer pour du NAS accessible
Un cadre hybride combinant Transformer et Artificial Bee Colony permet de faire du NAS sur GPU grand public, en quelques heures seulement.
OUTILS
heat 55
Show HN : un agent entraîné par RL pour entraîner d'autres modèles via RL (pour environ 1 300 $)
Un développeur détaille un projet où un agent, lui-même entraîné par renforcement, orchestre l'entraînement RL d'autres modèles à faible coût.
RECHERCHE
heat 35
La « leçon des 4 bits » : stabilité et performance dans l'apprentissage par renforcement en NVFP4
Un article technique explore comment entraîner des modèles en RL avec le format de quantification NVFP4 sans sacrifier la stabilité de l'entraînement.
RECHERCHE
heat 45
Une méthode minimaliste de RL guidé par retargeting pour la manipulation dextre
REGRIND apprend des politiques de manipulation dextre à partir d'une seule démonstration humaine, avec transfert direct vers le matériel réel.
RECHERCHE
heat 25
PAC-ACT : post-entraînement acteur-critique pour les transformers à découpage d'actions
Un framework de reinforcement learning affine les politiques robotiques pré-entraînées pour les tâches de manipulation industrielle à contact précis.
RECHERCHE
heat 25
Semantic Pareto-DQN : un cadre de reinforcement learning multi-objectif pour la détection d'anomalies financières
Un modèle combine LLM et RL multi-objectif pour éviter l'effondrement vers la classe majoritaire dans la détection de fraude, sans rééchantillonnage des données.
RECHERCHE
heat 62
AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles
Une méthode de feedback adaptatif ajuste dynamiquement la longueur du préfixe de solution fourni au modèle, doublant la précision de GRPO sur les problèmes mathématiques difficiles.
RECHERCHE
heat 62
Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement
Deux modèles s'affrontent et se notent mutuellement pour améliorer leur raisonnement, sans étiquettes de processus ni reward model externe.
OUTILS
heat 38
FootsiesGym : un benchmark de jeu de combat pour l'apprentissage par renforcement en deux joueurs
Un environnement open-source basé sur le jeu de combat minimaliste Footsies pour étudier les interactions stratégiques cycliques et non transitives.
RECHERCHE
heat 62
L'apprentissage par renforcement avec feedback métacognitif fait émerger l'incertitude dans les LLM
Une nouvelle approche combine RL et feedback métacognitif pour que les LLM expriment leur incertitude de façon calibrée.

OpenForgeRL : entraînement d'agents harness-native

MIRROR : optimiser le raisonnement multi-modal par vues croisées

Vers la télé-manipulation locomotrice de robots humanoïdes miniatures via VR et apprentissage par renforcement

Notes personnelles : les LLM peuvent-ils tirer parti d'abstractions expérientielles ?

Off-Context GRPO : apprendre à raisonner sur des problèmes difficiles

Copier moins, ancrer plus : corriger la copie répétitive dans le raisonnement long-contexte via un RL sensible aux preuves

ToolSciVer : vérification scientifique multimodale par RL et outils visuels

Comprendre le raisonnement des LLM, du pretraining au post-training via le RL

DADiff : adaptation de politique par diffusion pour l'apprentissage par renforcement inter-domaines

Quand l'optimiseur Muon améliore-t-il l'apprentissage par renforcement agentique ?

Un apprentissage par renforcement enrichi par la physique pour le contrôle optimal en temps réel de systèmes dynamiques

MeanFlowNFT : le RL forward-process pour les générateurs MeanFlow

Algorithmes pour l'ordonnancement de remplacement par bloc

Ring-Zero : le RL sans supervision porté à mille milliards de paramètres pour un raisonnement émergent

TRACE : attribution de récompense au niveau des tours pour agents à long horizon

Lighthouse RL : optimiser le dimensionnement de circuits analogiques avec moins d'essais

L'exposant de Lyapunov comme récompense dense pour stabiliser un pendule inversé par RL

Apprentissage par renforcement guidé par la connaissance et le gradient pour les MDP à actions paramétrées

TerraZero : simulation procédurale pour l'autopilotage sans démonstration

Workflow de recherche autonome avec agents RL et NVIDIA NeMo

Recherche d'architectures neuronales frugale : essaims et Transformer pour du NAS accessible

Show HN : un agent entraîné par RL pour entraîner d'autres modèles via RL (pour environ 1 300 $)

La « leçon des 4 bits » : stabilité et performance dans l'apprentissage par renforcement en NVFP4

Une méthode minimaliste de RL guidé par retargeting pour la manipulation dextre

PAC-ACT : post-entraînement acteur-critique pour les transformers à découpage d'actions

Semantic Pareto-DQN : un cadre de reinforcement learning multi-objectif pour la détection d'anomalies financières

AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles

Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement

FootsiesGym : un benchmark de jeu de combat pour l'apprentissage par renforcement en deux joueurs

L'apprentissage par renforcement avec feedback métacognitif fait émerger l'incertitude dans les LLM

OpenForgeRL : entraînement d'agents harness-native

MIRROR : optimiser le raisonnement multi-modal par vues croisées

Vers la télé-manipulation locomotrice de robots humanoïdes miniatures via VR et apprentissage par renforcement

Notes personnelles : les LLM peuvent-ils tirer parti d'abstractions expérientielles ?

Off-Context GRPO : apprendre à raisonner sur des problèmes difficiles

Copier moins, ancrer plus : corriger la copie répétitive dans le raisonnement long-contexte via un RL sensible aux preuves

ToolSciVer : vérification scientifique multimodale par RL et outils visuels

Comprendre le raisonnement des LLM, du pretraining au post-training via le RL

DADiff : adaptation de politique par diffusion pour l'apprentissage par renforcement inter-domaines

Quand l'optimiseur Muon améliore-t-il l'apprentissage par renforcement agentique ?

Un apprentissage par renforcement enrichi par la physique pour le contrôle optimal en temps réel de systèmes dynamiques

MeanFlowNFT : le RL forward-process pour les générateurs MeanFlow

Algorithmes pour l'ordonnancement de remplacement par bloc

Ring-Zero : le RL sans supervision porté à mille milliards de paramètres pour un raisonnement émergent

TRACE : attribution de récompense au niveau des tours pour agents à long horizon

Lighthouse RL : optimiser le dimensionnement de circuits analogiques avec moins d'essais

L'exposant de Lyapunov comme récompense dense pour stabiliser un pendule inversé par RL

Apprentissage par renforcement guidé par la connaissance et le gradient pour les MDP à actions paramétrées

TerraZero : simulation procédurale pour l'autopilotage sans démonstration

Workflow de recherche autonome avec agents RL et NVIDIA NeMo

Recherche d'architectures neuronales frugale : essaims et Transformer pour du NAS accessible

Show HN : un agent entraîné par RL pour entraîner d'autres modèles via RL (pour environ 1 300 $)

La « leçon des 4 bits » : stabilité et performance dans l'apprentissage par renforcement en NVFP4

Une méthode minimaliste de RL guidé par retargeting pour la manipulation dextre

PAC-ACT : post-entraînement acteur-critique pour les transformers à découpage d'actions

Semantic Pareto-DQN : un cadre de reinforcement learning multi-objectif pour la détection d'anomalies financières

AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles

Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement

FootsiesGym : un benchmark de jeu de combat pour l'apprentissage par renforcement en deux joueurs

L'apprentissage par renforcement avec feedback métacognitif fait émerger l'incertitude dans les LLM