RECHERCHE

Moins mais mieux : sélection de données d'entraînement pour la résumé scientifique

Des chercheurs montrent que filtrer les données d'entraînement par qualité surpasse l'échantillonnage aléatoire pour la résumé de longs documents scientifiques.

arXiv cs.AI · cs.LG · cs.CL·Maria Nefeli Paraskevopoulou, Tatiana Passali, Grigorios Tsoumakas·23 juin 2026

Image · Source originale

Les résumés d'auteurs utilisés comme références gold dans les datasets de résumé scientifique varient fortement en qualité et alignement avec l'article source. Les auteurs publient un dataset biomédical de 1,88 million d'articles PMC et démontrent que la sélection de sous-ensembles de haute qualité via des métriques source-grounded surpasse l'échantillonnage aléatoire à taille égale, et rivalise avec de plus grands ensembles sur les métriques de factualité.

Chaleur 15

Pertinence 65

Nouveauté 58

OUVRIR LA SOURCE ↗

#summarization #données-entraînement #NLP #biomédical #LLM