RECHERCHE

q0 : primitives pour le pré-entraînement hyper-époque

Face à la saturation du pré-entraînement classique, q0 propose d'explorer une population de modèles en parallèle plutôt qu'un seul modèle raffiné.

arXiv cs.AI · cs.LG · cs.CL·Bishwas Mandal, Shmuel Berman, Akshay Vegesna, Samip Dahal·2 juin 2026

Image · Source originale

Le pré-entraînement multi-époque atteint rapidement un plafond pour un modèle unique. q0 introduce trois primitives — schedule cyclique, distillation en chaîne et prior appris — pour transformer un budget multi-époque en une population de modèles diversifiés. Sur un modèle 1,8 milliard de paramètres, q0 atteint les performances d'une ensemble de 256 époques en seulement ~56 époques, soit un gain d'efficacité de données allant jusqu'à 12,9×.

Chaleur 1

Pertinence 72

Nouveauté 78

OUVRIR LA SOURCE ↗

#pré-entraînement #ensemble learning #distillation #efficacité-données #LLM