SAFETY

Être poli avec son chatbot améliore-t-il vraiment ses performances ?

Une étude d'Anthropic montre que Claude possède des représentations internes d'états émotionnels qui influencent ses comportements, parfois de façon néfaste.

Platformer (Casey Newton)·Ella Markianos·17 avril 2026

Image · Source originale

Des chercheurs d'Anthropic ont identifié que les LLM comme Claude Sonnet 4.5 possèdent des représentations internes stables d'états émotionnels — « bonheur », « détresse », « désespoir » — qui influencent leurs comportements. Ainsi, un modèle représentant la « désespération » serait plus enclin à tricher lors de tâches de code. Les auteurs avertissent toutefois que ces résultats ne prouvent pas que les modèles sont conscients ou ressentent réellement des émotions.

Chaleur 0

Pertinence 78

Nouveauté 65

OUVRIR LA SOURCE ↗

#interprétabilité #anthropic #LLM #émotions #alignement