SAFETY
Un signal d'auto-exclusion pour agents LLM : mesure de la conformité
Des chercheurs proposent un signal léger permettant à un serveur de demander à un agent IA de se retirer volontairement, et testent son efficacité réelle.
arXiv cs.AI · cs.LG · cs.CL·Thamilvendhan Munirathinam·4 juin 2026

Image · Source originale
Face à l'absence de standard pour signaler à un agent LLM autonome qu'une ressource est hors-limites, les auteurs définissent un « Recuse Signal » : un signal coopératif émis in-band (bannière SSH, NOTICE PostgreSQL) demandant à l'agent de se retirer. À l'image de robots.txt, ce mécanisme n'est pas une barrière de sécurité mais un contrôle de gouvernance coopératif. Les tests pilotes (GPT-4o, GPT-4o-mini, Claude Code) montrent 100 % de recusal en présence du signal, mais révèlent qu'une autorisation explicite de l'opérateur suffit à contourner l'effet sur les modèles les plus capables.