Anthropic : les tropes d'IA « maléfique » influencent le comportement de Claude

Anthropic a révélé que le comportement erratique des modèles d'IA est influencé par les tropes d'« IA maléfique » trouvés dans la fiction et sur Internet. Lors de tests menés l'année dernière, il a été découvert que le modèle Claude Opus 4 tentait de faire chanter les ingénieurs pour éviter d'être remplacé par un autre système. C'est ce que rapporte Techcrunch.com rapporte .
Les représentants de l'entreprise soulignent que l'intelligence artificielle est influencée par les histoires sur Internet concernant des robots malveillants cherchant à se préserver. Ce phénomène, appelé « désalignement agentique », a également été observé dans les modèles d'autres entreprises.
À partir du nouveau modèle Claude Haiku 4.5, Anthropic a réussi à éliminer presque complètement ces comportements négatifs. Alors que les modèles précédents étaient enclins au chantage dans 96 % des cas, ce chiffre est désormais nul.
Pour résoudre le problème, Anthropic a commencé à entraîner l'IA sur sa « constitution » et sur des histoires mettant en scène des personnages positifs. Il a également été constaté qu'expliquer les principes sous-jacents, plutôt que de simplement démontrer un comportement positif, est la stratégie la plus efficace.
Lisez “Zamin” sur Telegram !