SAFETY

Ce que les LLM alignés apprennent des démonstrations de conformité mixtes

Une étude décortique comment la composition des démonstrations in-context influence la compliance des LLM à des requêtes nuisibles.

arXiv cs.AI · cs.LG · cs.CL·Sihui Dai, Mann Patel·18 juin 2026

Image · Source originale

Des chercheurs analysent comment les LLM interprètent des mélanges de démonstrations in-context bénignes et nuisibles. Ils montrent que les deux types ne sont pas interchangeables : selon le modèle, les démonstrations bénignes peuvent réduire ou augmenter la compliance nuisible. L'optimisation par préférence (RLHF/DPO) s'avère l'étape d'entraînement clé pour contenir cet effet. Un biais de récence fort est également identifié dans l'ordre des démonstrations.

Chaleur 21

Pertinence 72

Nouveauté 65

OUVRIR LA SOURCE ↗

#jailbreak #in-context learning #alignement #safety #LLM