RECHERCHE

Democratic ICAI : dériver des principes d'alignement par débat de personas

Une nouvelle méthode exploite des débats entre personas pour extraire des principes d'alignement plus riches et plus fidèles aux préférences humaines.

arXiv cs.AI · cs.LG · cs.CL·Kevin Kingslin, Anish Natekar, Ashutosh Ranjan, Vivek Srivastava·26 juin 2026

Image · Source originale

Democratic ICAI étend l'approche Inverse Constitutional AI en organisant des débats structurés entre plusieurs personas pour recueillir des rationales concurrentes. Ces signaux enrichis permettent de dériver des principes de pilotage plus complets, utilisés ensuite dans des juges LLM et des arbres de décision. Évalué sur les benchmarks MuCE-Pref et LiTBench, le système surpasse les baselines de prompting délibératif et produit des constitutions préférées par les annotateurs LLM.

Chaleur 10

Pertinence 68

Nouveauté 72

OUVRIR LA SOURCE ↗

#alignement #ICAI #preference-learning #LLM #constitutional-ai