SAFETY

SkillHarm : attaques basées sur les compétences d'agents IA à travers leur cycle de vie

Un nouveau benchmark révèle que les agents IA restent vulnérables à des attaques via leurs skills, avec des taux de succès atteignant 86 %.

arXiv cs.AI · cs.LG · cs.CL·Yuting Ning, Zhehao Zhang, Yash Kumar Lal, Boyu Gou·1 juin 2026

Image · Source originale

SkillHarm est un benchmark évaluant les attaques par empoisonnement de skills d'agents IA sur l'ensemble de leur cycle de vie. Il distingue deux scénarios : l'empoisonnement à charge fixe (FPP) et l'empoisonnement auto-mutant (SMP), qui défère le préjudice à une réutilisation ultérieure. La taxonomie couvre 12 types de risques ciblant les pipelines de données, environnements système et autonomie des agents. Les expériences montrent des taux d'attaque réussis atteignant 86,3 % (FPP) et 69,3 % (SMP).

Chaleur 1

Pertinence 75

Nouveauté 72

OUVRIR LA SOURCE ↗

#agents #benchmark #adversarial #safety #skills