SAFETY
Ce que les LLM alignés apprennent des démonstrations de conformité mixtes
Une étude décortique comment la composition des démonstrations in-context influence la compliance des LLM à des requêtes nuisibles.
arXiv cs.AI · cs.LG · cs.CL·Sihui Dai, Mann Patel·18 juin 2026

Image · Source originale
Des chercheurs analysent comment les LLM interprètent des mélanges de démonstrations in-context bénignes et nuisibles. Ils montrent que les deux types ne sont pas interchangeables : selon le modèle, les démonstrations bénignes peuvent réduire ou augmenter la compliance nuisible. L'optimisation par préférence (RLHF/DPO) s'avère l'étape d'entraînement clé pour contenir cet effet. Un biais de récence fort est également identifié dans l'ordre des démonstrations.