RECHERCHE

Évaluation automatisée de la reproductibilité en sciences sociales par les LLM

Des chercheurs montrent que les LLM surpassent les humains pour reproduire les résultats d'études en sciences sociales et comportementales.

arXiv cs.AI · cs.LG · cs.CL·Tobias Holtdirk, Pietro Marcolongo, Anna Steinberg Schulten, Felix Henninger·11 juin 2026

Image · Source originale

Une équipe a testé un pipeline LLM sur 76 études publiées en sciences sociales pour automatiser l'évaluation de la reproductibilité. Le modèle a reproduit les tailles d'effet originales dans 41 % des cas et atteint la même conclusion qualitative dans 96 % des cas, contre respectivement 34 % et 74 % pour les réévaluateurs humains. Ces résultats positionnent les LLM comme outil scalable d'audit systématique des résultats empiriques.

Chaleur 17

Pertinence 62

Nouveauté 72

OUVRIR LA SOURCE ↗

#LLM #reproductibilité #sciences-sociales #évaluation-automatisée #benchmark