RECHERCHE
VibeThinker : un modèle 3B surpasse Claude Opus 4.5 en raisonnement avec SFT+GRPO
Un modèle de 3 milliards de paramètres rivalise avec des géants via une combinaison inédite de fine-tuning supervisé et d'optimisation GRPO.
Hacker News (filtré IA)·@timhigins·23 juin 2026

Image · Source originale
VibeThinker est un modèle de 3B paramètres entraîné via une pipeline combinant SFT (Supervised Fine-Tuning) et GRPO (Group Relative Policy Optimization). Malgré sa taille modeste, il surpasse Claude Opus 4.5 sur des benchmarks de raisonnement. L'approche met en lumière l'efficacité des méthodes d'entraînement hybrides pour maximiser les capacités de raisonnement à faible coût computationnel.