RECHERCHE

Inférence valide avec des données synthétiques via l'échangeabilité de tâches

Des chercheurs proposent un cadre statistique garantissant la validité des inférences lorsque des données synthétiques (LLM, modèles génératifs) remplacent des données réelles.

arXiv cs.AI · cs.LG · cs.CL·Lezhi Tan, Tijana Zrnic·11 juin 2026

Image · Source originale

Face à la multiplication des usages de données synthétiques en recherche — sondages via "silicon samples", évaluations LLM-as-a-judge, structures protéiques générées — ce travail établit des principes statistiques rigoureux pour garantir la validité des inférences. La notion clé est l'"échangeabilité de tâches" : la tâche courante doit être échangeable, au sens mathématique, avec des tâches historiques pour lesquelles des données réelles existent. Le cadre est validé sur des sondages d'opinion publique et des évaluations automatisées par autoraters.

Chaleur 33

Pertinence 72

Nouveauté 75

OUVRIR LA SOURCE ↗

#données synthétiques #inférence statistique #LLM-as-a-judge #échangeabilité #évaluation