RECHERCHE
Multi-LCB : extension de LiveCodeBench à douze langages de programmation
Un nouveau benchmark révèle que les LLMs souffrent d'overfitting Python et peinent à généraliser à d'autres langages de programmation.
arXiv cs.AI · cs.LG · cs.CL·Maria Ivanova, Pavel Zadorozhny, Rodion Levichev, Ivan Petrov·18 juin 2026

Image · Source originale
Multi-LCB étend LiveCodeBench (LCB) à douze langages de programmation en transformant les tâches Python existantes en équivalents multilingues, tout en conservant les mécanismes anti-contamination d'origine. L'évaluation de 24 LLMs met en évidence un overfitting massif sur Python, une contamination spécifique par langage et des écarts importants de performance multilingue. Compatible avec les futures mises à jour de LCB, ce benchmark s'impose comme un outil de référence pour évaluer la compétence réelle en génération de code.