RECHERCHE
Randomized YaRN améliore la généralisation en longueur pour le raisonnement sur longs contextes
Une méthode d'entraînement combine YaRN et encodages positionnels aléatoires pour étendre la fenêtre de contexte des LLM bien au-delà de leur données d'entraînement.
arXiv cs.AI · cs.LG · cs.CL·Manas Mehta, Fangcong Yin, Greg Durrett·22 juin 2026

Image · Source originale
Les LLM entraînés sur de courtes séquences peinent à généraliser à de très longs contextes. Randomized YaRN propose d'exposer le modèle, même sur des données courtes (<8K tokens), à des encodages positionnels YaRN échantillonnés sur une plage étendue, combinés à un curriculum de longueur progressif. Évaluée sur BABILong et MRCR, la méthode surpasse le fine-tuning standard de 16K à 128K tokens, avec les gains les plus marqués aux longueurs les plus hors-distribution.