SAFETY

Les LLMs peuvent-ils détecter fiablement les attaques par préfill adversarial ?

Une étude teste la capacité des LLMs à reconnaître qu'ils ont été manipulés par un préfill adversarial — les résultats révèlent des limites profondes.

arXiv cs.AI · cs.LG · cs.CL·Quang Minh Nguyen, Uzair Ahmed, Taegyoon Kim·22 juin 2026

Image · Source originale

Des chercheurs ont évalué dix LLMs open-weight (3B à 70B) sur leur capacité à identifier rétrospectivement une compromission par attaque de type adversarial prefill. Aucun modèle ne détecte fiablement ses sorties compromises, avec un taux moyen de reconnaissance erronée de 27,3 %. Les signaux introspectifs proviennent principalement des mécanismes de refus, et le fine-tuning LoRA (SFT, GRPO, DPO), bien qu'améliorant certaines métriques, augmente paradoxalement le taux de succès des attaques sur la plupart des modèles.

Chaleur 14

Pertinence 72

Nouveauté 68

OUVRIR LA SOURCE ↗

#adversarial-prefill #introspection #LLM #safety #fine-tuning