RECHERCHE

Themis : reward models multilingues pour l'évaluation multi-critères du code

Des chercheurs publient un benchmark et une suite de reward models open-source dédiés à l'évaluation du code sur huit langages et cinq critères.

arXiv cs.AI · cs.LG · cs.CL·Indraneil Paul, Glavaš Glavas, Iryna Gurevych·1 mai 2026

Image · Source originale

Themis-CodeRewardBench est un nouveau benchmark évaluant les reward models (RMs) sur cinq dimensions de préférence et huit langages de programmation, profilant plus de 50 RMs existants. Face aux lacunes constatées, les auteurs publient Themis-CodePreference, la plus grande collection open-source de préférences de code (350 000+ paires), et entraînent Themis-RM, une suite de modèles allant de 600M à 32B paramètres. Les expériences montrent de bons transferts cross-linguaux et l'importance de l'entraînement multi-critères.

Chaleur 0

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#reward-model #code-generation #multilingual #benchmark #post-training