RECHERCHE
ClassEval-Pro : un benchmark multi-domaines pour la génération de code au niveau classe
Un nouveau benchmark de 300 tâches révèle que les meilleurs LLMs n'atteignent que 45,6% de réussite sur la génération de classes complètes.
arXiv cs.AI · cs.LG · cs.CL·Yeheng Chen, Chaoxiang Xie, Yuling Shi, Wenhao Zeng·29 avril 2026

Image · Source originale
ClassEval-Pro propose 300 tâches de génération de code au niveau classe, couvrant 11 domaines, construites via un pipeline automatisé en trois étapes intégrant du code GitHub réel postérieur à janvier 2025. Les cinq LLMs frontier évalués peinent : le meilleur modèle atteint seulement 45,6% de Pass@1, avec un écart de 17,7 points entre le plus fort et le plus faible. L'analyse de 500 échecs révèle que les erreurs de logique (56,2%) et de dépendances inter-méthodes (38%) dominent, pointant la coordination intra-classe comme principal obstacle.