RECHERCHE
Inférence valide avec des données synthétiques via l'échangeabilité de tâches
Des chercheurs proposent un cadre statistique garantissant la validité des inférences lorsque des données synthétiques (LLM, modèles génératifs) remplacent des données réelles.
arXiv cs.AI · cs.LG · cs.CL·Lezhi Tan, Tijana Zrnic·11 juin 2026

Image · Source originale
Face à la multiplication des usages de données synthétiques en recherche — sondages via "silicon samples", évaluations LLM-as-a-judge, structures protéiques générées — ce travail établit des principes statistiques rigoureux pour garantir la validité des inférences. La notion clé est l'"échangeabilité de tâches" : la tâche courante doit être échangeable, au sens mathématique, avec des tâches historiques pour lesquelles des données réelles existent. Le cadre est validé sur des sondages d'opinion publique et des évaluations automatisées par autoraters.