RECHERCHE
SPECTRA : collections de test synthétiques pour la recherche d'information avec oracles de pertinence
Un framework reproductible pour générer des corpus synthétiques à grande échelle, permettant de diagnostiquer les limites des systèmes de retrieval avant tout effort d'annotation humaine.
arXiv cs.AI · cs.LG · cs.CL·Eric Liang·29 mai 2026

Image · Source originale
SPECTRA est un framework Python capable de générer des corpus synthétiques jusqu'à 60 000 documents et 9,6 millions de tokens, avec des labels de pertinence gradués pour 96 requêtes. Il sépare structure topique latente, réalisation textuelle et métadonnées pour produire des oracles de pertinence déterministes. Les tests montrent que l'ajout de textes distracteurs inter-topics dégrade le nDCG@10 de BM25 de 1,00 à 0,43, révélant les fragilités des systèmes de retrieval à moindre coût.