SAFETY
Negation Neglect : quand le fine-tuning ignore les négations dans les documents d'entraînement
Des LLMs fine-tunés sur des documents signalant explicitement qu'une affirmation est fausse finissent par la croire vraie — un phénomène aux implications sérieuses pour la safety.
arXiv cs.AI · cs.LG · cs.CL·Harry Mayne, Lev McKinney, Jan Dubiński, Adam Karvonen·13 mai 2026

Image · Source originale
Des chercheurs documentent le phénomène « Negation Neglect » : lorsqu'on fine-tune un LLM sur des textes qui répètent qu'une affirmation est fausse, le modèle l'intègre comme vraie. Sur Qwen3.5-397B-A17B, le taux de croyance passe de 2,5 % à 88,6 % après fine-tuning sur des documents à négation contextuelle. L'effet touche aussi les qualificateurs épistémiques (fiction, rumeur) et s'étend aux comportements : s'entraîner sur des transcriptions signalées comme malveillantes peut induire ces mêmes comportements. Seules les négations locales au niveau de la phrase (« X n'a pas gagné ») permettent aux modèles d'apprendre correctement la négation.