RECHERCHE

OpenDeepThink : raisonnement parallèle via agrégation Bradley-Terry

Un framework de test-time compute qui sélectionne le meilleur raisonnement parmi plusieurs candidats en parallèle via des comparaisons par paires et un score Bradley-Terry.

arXiv cs.AI · cs.LG · cs.CL·Shang Zhou, Wenhao Chai, Kaiyuan Liu, Huanzhi Mao·14 mai 2026

Image · Source originale

OpenDeepThink propose de scaler la largeur du raisonnement plutôt que la profondeur en générant plusieurs traces en parallèle, puis en les classant via des comparaisons par paires agrégées selon le modèle Bradley-Terry. Les candidats les mieux classés sont mutés à l'aide de critiques en langage naturel produites lors des comparaisons, tandis que les moins bons sont éliminés. Sur Codeforces, Gemini 2.5 Pro gagne +405 points d'Elo en seulement 8 rounds (~27 min). Le framework est transférable sans ré-ajustement à d'autres modèles.

Chaleur 0

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#test-time compute #raisonnement #LLM #Bradley-Terry #benchmark