SAFETY
Détecter, désapprendre, restaurer : défense des modèles de résumé contre l'empoisonnement de données
Un framework post-hoc unifié protège les LLMs de résumé de texte contre les attaques par empoisonnement du fine-tuning, avec 85-92 % de précision de détection.
arXiv cs.AI · cs.LG · cs.CL·Poojitha Thota, Shirin Nilizadeh·24 juin 2026

Image · Source originale
Des chercheurs proposent un framework de défense contre l'empoisonnement des données lors du fine-tuning de modèles LLM dédiés au résumé de texte. En mode boîte blanche, l'analyse des fonctions d'influence détecte les paires document-résumé corrompues ; en boîte noire, une sensibilité 2 à 3 fois plus élevée aux perturbations sémantiques permet l'audit comportemental. Le désapprentissage par gradient ascendant restaure jusqu'à 96 % du comportement original, avec moins de 0,6 % de dégradation ROUGE sur neuf architectures et six benchmarks.