SAFETY
Les évaluations comportementales ne peuvent pas vérifier les garanties de sécurité exigées par la gouvernance IA
Un paper de position soutient que les méthodes d'assurance comportementale sont structurellement inadaptées aux exigences de vérification imposées par les cadres réglementaires actuels.
arXiv cs.AI · cs.LG · cs.CL·Pratinav Seth, Vinay Kumar Sankarapu·14 mai 2026

Image · Source originale
Les cadres de gouvernance IA adoptés entre 2019 et début 2026 exigent des preuves vérifiables de propriétés comme l'absence d'objectifs cachés ou la résistance aux précurseurs de perte de contrôle. Or, les évaluations comportementales et le red-teaming ne peuvent accéder qu'aux sorties observables, pas aux représentations latentes. Les auteurs formalisent cet écart sous le concept d'« audit gap » et proposent de compléter les évaluations par des méthodes mécanistes (sondes linéaires, activation patching, comparaisons avant/après entraînement).