RECHERCHE
Stanford EDGAR Filings Dataset : des documents SEC reconvertis en données d'entraînement longue portée
Un corpus ouvert de 152 milliards de tokens tiré des dépôts SEC, conçu pour le préentraînement des LLMs sur des documents financiers structurés.
arXiv cs.AI · cs.LG · cs.CL·Nick Bettencourt, Xiaowei Ding, Kay Giesecke·16 juin 2026

Image · Source originale
Les chercheurs de Stanford publient SEFD, un jeu de données reconstructurant les dépôts SEC en MultiMarkdown structuré, couvrant bilans, déclarations de risques et événements boursiers. Le corpus SEFD-v1 contient 152 milliards de tokens, avec moins de 0,1 % de chevauchement avec Common Crawl. Deux benchmarks dérivés sont proposés : EDGAR-Forecast (prévisions numériques ancrées dans les dépôts) et EDGAR-OCR (transcription de tableaux financiers complexes). L'archive complète est estimée à 550 milliards de tokens.