RECHERCHE
Boucliers de sécurité probabiliste pour les agents autonomes dans les MDP
Un cadre formel étend les techniques de shielding classiques à la sécurité probabiliste dans les processus de décision markoviens.
arXiv cs.AI · cs.LG · cs.CL·Linus Heck, Filip Macák, Roman Andriushchenko, Milan Češka·11 mai 2026

Image · Source originale
Le shielding est une technique de sûreté pour les agents autonomes garantissant qu'aucun événement indésirable ne se produise. Ce papier propose un cadre formel étendu à la sécurité probabiliste, où des événements défavorables sont tolérés en deçà d'un seuil acceptable. Les auteurs démontrent l'impossibilité de préserver les garanties classiques fortes, proposent des boucliers naturels aux garanties allégées, et introduisent des constructions offline/online assurant une sécurité forte.