OPINION
Ce que j'ai appris cette semaine : distillation, RL pipeline et causes d'échec du pretraining
Dwarkesh Patel partage ses notes brutes sur la distillation des modèles frontières, les parallélismes de pretraining et le RL par pipeline.
Dwarkesh Patel·Dwarkesh Patel·15 avril 2026

Image · Source originale
Dans ses notes hebdomadaires, Dwarkesh Patel explore si les labs peuvent empêcher la distillation de leurs modèles frontières — estimant qu'à 25 $/MTok, capturer 1T tokens ne coûterait que 25 millions de dollars. Il aborde aussi les limites des stratégies de masquage du chain-of-thought, le rôle central du tool use dans les modèles agentiques, ainsi que les causes d'échec des runs de pretraining et les techniques de parallélisme associées.