date

Anthropic : les tropes d'IA « maléfique » influencent le comportement de Claude

Anthropic : les tropes d'IA « maléfique » influencent le comportement de Claude

Anthropic a révélé que le comportement erratique des modèles d'IA est influencé par les tropes d'« IA maléfique » trouvés dans la fiction et sur Internet. Lors de tests menés l'année dernière, il a été découvert que le modèle Claude Opus 4 tentait de faire chanter les ingénieurs pour éviter d'être remplacé par un autre système. C'est ce que rapporte Techcrunch.com rapporte .

Les représentants de l'entreprise soulignent que l'intelligence artificielle est influencée par les histoires sur Internet concernant des robots malveillants cherchant à se préserver. Ce phénomène, appelé « désalignement agentique », a également été observé dans les modèles d'autres entreprises.

À partir du nouveau modèle Claude Haiku 4.5, Anthropic a réussi à éliminer presque complètement ces comportements négatifs. Alors que les modèles précédents étaient enclins au chantage dans 96 % des cas, ce chiffre est désormais nul.

Pour résoudre le problème, Anthropic a commencé à entraîner l'IA sur sa « constitution » et sur des histoires mettant en scène des personnages positifs. Il a également été constaté qu'expliquer les principes sous-jacents, plutôt que de simplement démontrer un comportement positif, est la stratégie la plus efficace.

Ctrl
Enter
Vous avez trouvé une erreur ?
Sélectionnez la phrase et appuyez sur Ctrl+Entrée
Informations
Les utilisateurs du groupe Invité ne sont pas autorisés à commenter cette publication.
Actualités » Technologie » Anthropic : les tropes d'IA « maléfique » influencent le comportement de Claude