SAFETY
Évaluation comparative de la sûreté des LLM sans benchmark de référence
Des chercheurs formalisent une méthode d'audit de sûreté des LLM applicable quand aucun benchmark labellisé n'existe encore pour un contexte donné.
arXiv cs.AI · cs.LG · cs.CL·Sushant Gautam, Finn Schwall, Annika Willoch Olstad, Fernando Vallecillos Ruiz·7 mai 2026

Image · Source originale
L'article propose un cadre formel pour comparer la sûreté de modèles de langage en l'absence d'étiquettes de référence, baptisé « benchmarkless comparative safety scoring ». La validité des scores repose sur une chaîne de validité instrumentale : réactivité à un contraste contrôlé sûr/ablitéré, dominance de la variance liée aux cibles, et stabilité entre plusieurs exécutions. L'outil SimpleAudit, validé sur un pack de scénarios norvégien, obtient des AUROC entre 0,89 et 1,00. Un cas pratique de marchés publics compare les modèles Borealis et Gemma 3.