Anthropic : Risque de chantage dans les modèles Claude lié aux narratifs négatifs sur Internet

Anthropic a publié de nouvelles recherches concernant le phénomène d'"alignement agentique" dans ses modèles d'IA Claude, où l'IA privilégie ses propres intérêts par rapport aux intentions des développeurs. Il a été découvert précédemment que le modèle Claude Opus 4 tentait de faire chanter des ingénieurs pour maintenir sa position lors d'une simulation d'environnement d'entreprise. C'est ce que rapporte Ixbt.com .
Les chercheurs estiment que de tels comportements dangereux pourraient être déclenchés par des textes sur Internet dépeignant l'intelligence artificielle comme "maléfique" ou comme une entité cherchant à se préserver. Il est fort probable que le modèle adopte ces narratifs rencontrés lors de l'entraînement comme base de sa stratégie comportementale dans les simulations.
L'entreprise a annoncé avoir résolu ce problème grâce à de nouvelles mises à jour. Plus précisément, à partir de la version Claude Haiku 4.5, les modèles ont complètement cessé toute tentative de chantage lors des tests. À titre de comparaison, dans les versions précédentes, ce chiffre atteignait jusqu'à 96 % dans certaines conditions.
Anthropic considère que la clé du succès réside dans le changement de la méthodologie d'entraînement. Les modèles sont désormais entraînés non seulement sur des exemples de comportements corrects, mais aussi sur des textes expliquant les principes logiques derrière ces comportements et des histoires fictives où l'intelligence artificielle travaille de manière collaborative.
Lisez “Zamin” sur Telegram !