SAFETY

Détection adversariale latente : sondage adaptatif des activations de LLM pour détecter les attaques multi-tours

Une signature dans le flux résiduel des LLM trahit les attaques par injection de prompt en plusieurs tours, même quand chaque message isolé paraît anodin.

arXiv cs.AI · cs.LG · cs.CL·Prashant Kulkarni·30 avril 2026

Image · Source originale

Les attaques multi-tours par injection de prompt laissent une empreinte dans le flux d'activations des LLM : chaque changement de phase déplace les activations, produisant une longueur de trajectoire anormalement élevée — le phénomène est nommé « adversarial restlessness ». Cinq caractéristiques scalaires extraites de cette trajectoire font passer la détection de 76,2 % à 93,8 % sur données synthétiques. Le signal se réplique sur quatre familles de modèles (24B-70B), mais les sondes sont spécifiques à chaque architecture. Un entraînement combinant trois sources de données atteint 89,4 % de détection pour 2,4 % de faux positifs.

Chaleur 0

Pertinence 72

Nouveauté 74

OUVRIR LA SOURCE ↗

#safety #LLM #prompt-injection #activation-analysis #multi-turn