RECHERCHE

Multi-LCB : extension de LiveCodeBench à douze langages de programmation

Un nouveau benchmark révèle que les LLMs souffrent d'overfitting Python et peinent à généraliser à d'autres langages de programmation.

arXiv cs.AI · cs.LG · cs.CL·Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov·18 juin 2026

Image · Source originale

Multi-LCB étend LiveCodeBench (LCB) à douze langages de programmation en transformant les tâches Python existantes en équivalents multilingues, tout en conservant les mécanismes anti-contamination d'origine. L'évaluation de 24 LLMs met en évidence un overfitting massif sur Python, une contamination spécifique par langage et des écarts importants de performance multilingue. Compatible avec les futures mises à jour de LCB, ce benchmark s'impose comme un outil de référence pour évaluer la compétence réelle en génération de code.

Chaleur 20

Pertinence 72

Nouveauté 65

OUVRIR LA SOURCE ↗

#benchmark #code-generation #LLM #multilingual #évaluation