7 items

#GRPO

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 25
OR Else : une région de confiance différentiable pour l'optimisation de politique
Une alternative lisse au clipping de PPO et GRPO testée sur Llama-3.2-1B pour le post-entraînement de LLM par RLHF.
RECHERCHE
heat 62
AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles
Une méthode de feedback adaptatif ajuste dynamiquement la longueur du préfixe de solution fourni au modèle, doublant la précision de GRPO sur les problèmes mathématiques difficiles.
RECHERCHE
heat 62
Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement
Deux modèles s'affrontent et se notent mutuellement pour améliorer leur raisonnement, sans étiquettes de processus ni reward model externe.
RECHERCHE
heat 62
TREK : distillation pour l'exploration, renforcement pour l'affinement
TREK combine distillation et GRPO pour débloquer les prompts difficiles que le modèle étudiant ne sait pas résoudre seul.
RECHERCHE
heat 52
TRIAGE : attribution de crédit par rôle sémantique pour le reinforcement learning agentique
Un framework qui dépasse GRPO en assignant des récompenses différenciées selon le rôle sémantique de chaque action dans un rollout agentique.
RECHERCHE
heat 42
Conception de signaux de récompense pour la génération de requêtes portables dans la recherche d'emploi sémantique
Un framework RLAIF appliqué à la recherche d'emploi révèle les failles du reward shaping avec GRPO et propose un correctif déterministe contre le verbatim-copying.
RECHERCHE
heat 78
VibeThinker : un modèle 3B surpasse Claude Opus 4.5 en raisonnement avec SFT+GRPO
Un modèle de 3 milliards de paramètres rivalise avec des géants via une combinaison inédite de fine-tuning supervisé et d'optimisation GRPO.

7 items

#GRPO

Toutes les news taguées avec ce sujet.

Chronologie · 60 derniers jours

RECHERCHE
heat 25
OR Else : une région de confiance différentiable pour l'optimisation de politique
Une alternative lisse au clipping de PPO et GRPO testée sur Llama-3.2-1B pour le post-entraînement de LLM par RLHF.
RECHERCHE
heat 62
AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles
Une méthode de feedback adaptatif ajuste dynamiquement la longueur du préfixe de solution fourni au modèle, doublant la précision de GRPO sur les problèmes mathématiques difficiles.
RECHERCHE
heat 62
Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement
Deux modèles s'affrontent et se notent mutuellement pour améliorer leur raisonnement, sans étiquettes de processus ni reward model externe.
RECHERCHE
heat 62
TREK : distillation pour l'exploration, renforcement pour l'affinement
TREK combine distillation et GRPO pour débloquer les prompts difficiles que le modèle étudiant ne sait pas résoudre seul.
RECHERCHE
heat 52
TRIAGE : attribution de crédit par rôle sémantique pour le reinforcement learning agentique
Un framework qui dépasse GRPO en assignant des récompenses différenciées selon le rôle sémantique de chaque action dans un rollout agentique.
RECHERCHE
heat 42
Conception de signaux de récompense pour la génération de requêtes portables dans la recherche d'emploi sémantique
Un framework RLAIF appliqué à la recherche d'emploi révèle les failles du reward shaping avec GRPO et propose un correctif déterministe contre le verbatim-copying.
RECHERCHE
heat 78
VibeThinker : un modèle 3B surpasse Claude Opus 4.5 en raisonnement avec SFT+GRPO
Un modèle de 3 milliards de paramètres rivalise avec des géants via une combinaison inédite de fine-tuning supervisé et d'optimisation GRPO.

OR Else : une région de confiance différentiable pour l'optimisation de politique

AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles

Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement

TREK : distillation pour l'exploration, renforcement pour l'affinement

TRIAGE : attribution de crédit par rôle sémantique pour le reinforcement learning agentique

Conception de signaux de récompense pour la génération de requêtes portables dans la recherche d'emploi sémantique

VibeThinker : un modèle 3B surpasse Claude Opus 4.5 en raisonnement avec SFT+GRPO

OR Else : une région de confiance différentiable pour l'optimisation de politique

AdaPrefix-GRPO : contrôle adaptatif du préfixe pour maximiser le signal d'entraînement sur les problèmes difficiles

Agon : apprentissage par renforcement compétitif inter-modèles pour le raisonnement

TREK : distillation pour l'exploration, renforcement pour l'affinement

TRIAGE : attribution de crédit par rôle sémantique pour le reinforcement learning agentique

Conception de signaux de récompense pour la génération de requêtes portables dans la recherche d'emploi sémantique

VibeThinker : un modèle 3B surpasse Claude Opus 4.5 en raisonnement avec SFT+GRPO