RECHERCHE
Équité méritocratique dans les bandits combinatoires budgétisés via les valeurs de Shapley
Un nouveau framework combine valeurs de Shapley et bandits multi-bras pour garantir une équité méritocratique sans feedback individuel des bras.
arXiv cs.AI · cs.LG · cs.CL·Shradha Sharma, Swapnil Dhamal, Shweta Jain·1 mai 2026

Image · Source originale
Les auteurs proposent K-SVFair-FBF, un algorithme de bandit combinatoire budgétisé opérant en full-bandit feedback, où les contributions individuelles des bras ne sont pas directement observables. Ils étendent la valeur de Shapley en une notion de K-valeur de Shapley capturant la contribution marginale d'un agent dans des coalitions de taille au plus K. L'algorithme atteint une borne de regret en O(T^{3/4}) sur l'équité, validée sur des jeux de données d'apprentissage fédéré et de maximisation d'influence sociale.