RECHERCHE

VibeThinker : un modèle 3B surpasse Claude Opus 4.5 en raisonnement avec SFT+GRPO

Un modèle de 3 milliards de paramètres rivalise avec des géants via une combinaison inédite de fine-tuning supervisé et d'optimisation GRPO.

Hacker News (filtré IA)·@timhigins·23 juin 2026

Image · Source originale

VibeThinker est un modèle de 3B paramètres entraîné via une pipeline combinant SFT (Supervised Fine-Tuning) et GRPO (Group Relative Policy Optimization). Malgré sa taille modeste, il surpasse Claude Opus 4.5 sur des benchmarks de raisonnement. L'approche met en lumière l'efficacité des méthodes d'entraînement hybrides pour maximiser les capacités de raisonnement à faible coût computationnel.

Chaleur 28

Pertinence 85

Nouveauté 82

OUVRIR LA SOURCE ↗

#LLM #raisonnement #fine-tuning #GRPO #small-model