RECHERCHE
RESTestBench : un benchmark pour évaluer les tests d'API REST générés par LLM
Un nouveau benchmark mesure la capacité des LLM à générer des cas de test REST pertinents à partir d'exigences en langage naturel, via une métrique de mutation.
arXiv cs.AI · cs.LG · cs.CL·Leon Kogler, Stefan Hangler, Maximilian Ehrhart, Benedikt Dornauer·28 avril 2026

Image · Source originale
RESTestBench est un benchmark dédié à l'évaluation des tests d'API REST générés par LLM à partir d'exigences en langage naturel, précises ou vagues. Il introduit une métrique de mutation testing orientée exigences pour mesurer la détection de fautes. Les expériences montrent que l'efficacité des tests chute significativement lorsque le générateur interagit avec du code muté ou défectueux, surtout face à des exigences vagues. Lorsque les exigences sont détaillées, l'interaction avec le système réel s'avère superflue.