RECHERCHE
OpenSeeker-v2 : un agent de recherche frontier entraîné par SFT seul
Une équipe académique atteint l'état de l'art sur 4 benchmarks avec seulement 10 600 exemples et un simple fine-tuning supervisé, sans CPT ni RL.
arXiv cs.AI · cs.LG · cs.CL·Yuwen Du, Rui Ye, Shuo Tang, Keduan Huang·5 mai 2026

Image · Source originale
OpenSeeker-v2 démontre qu'un pipeline SFT simple, alimenté par des trajectoires informatives et à haute difficulté, suffit à produire un agent de recherche frontier. Trois modifications de synthèse de données — agrandissement du graphe de connaissances, extension du jeu d'outils et filtrage strict par nombre d'étapes — permettent d'atteindre 46,0 % sur BrowseComp et 34,6 % sur Humanity's Last Exam avec 10 600 points d'entraînement. Le modèle surpasse Tongyi DeepResearch, pourtant entraîné via CPT+SFT+RL. Les poids sont open-source.