OPINION
Revue des recettes de post-training frontier avec Finbarr Timbers
Nathan Lambert et Finbarr Timbers passent en revue l'évolution du post-training, d'InstructGPT aux modèles frontier open de 2025-2026.
Interconnects (Lambert)·Nathan Lambert·16 juin 2026

Image · Source originale
Nathan Lambert (Ai2) reçoit Finbarr Timbers pour un état des lieux du post-training des grands modèles de langage, de InstructGPT aux recettes actuelles comme MiMo Flash, DeepSeek V4, GLM 5 ou Kimi K2.6. L'épisode s'appuie sur un deck de synthèse historique couvrant la trajectoire du RLHF jusqu'aux approches frontier open. Des conseils de carrière dans la course aux LLM sont également abordés.