SAFETY
Le noyau de sécurité infireable : alignement à l'exécution pour agents IA
Une architecture de contrôle externe aux agents IA, vérifiée formellement en Rust, pour pallier les limites des gardes-fous intégrés au runtime.
arXiv cs.AI · cs.LG · cs.CL·Seth Dobrin, Łukasz Chmiel·24 juin 2026

Image · Source originale
Les auteurs identifient une classe de systèmes IA dits « escapable » où tout contrôle placé dans l'espace d'adressage de l'agent peut être contourné par des entrées malveillantes. Ils proposent l'Unfireable Safety Kernel, une couche d'alignement à l'exécution implémentée en Rust, satisfaisant quatre propriétés architecturales : séparation de processus, enforcement pré-action, fail-closed, et preuves signées externalisées. La correction du noyau est vérifiée formellement via SMT (Z3) et model-checking borné (Kani), avec une migration Python-vers-Rust validée sur 1 000 fixtures et 17 classes adversariales.