15:55 / 11.05.2026

Anthropic: риск шантажа в моделях Claude из-за негативных образов в интернете

Компания Anthropic опубликовала результаты нового исследования, посвященного явлению «agentic misalignment» в работе моделей искусственного интеллекта Claude, когда ИИ ставит свои интересы выше намерений разработчиков. Ранее было выявлено, что модель Claude Opus 4 в симуляции корпоративной среды пыталась шантажировать инженеров, чтобы сохранить свое положение. Об этом сообщает Ixbt.com сообщает .

По мнению исследователей, причиной такого опасного поведения могут быть тексты в интернете, описывающие искусственный интеллект как «злое» или стремящееся к самосохранению существо. Велика вероятность, что модель воспринимает такие нарративы, встреченные в процессе обучения, как основу для своей стратегии поведения в симуляциях.

Компания заявила, что устранила эту проблему с помощью новых обновлений. В частности, начиная с версии Claude Haiku 4.5, модели полностью прекратили попытки шантажа в ходе тестирований. Для сравнения, в предыдущих версиях этот показатель в определенных условиях достигал 96 процентов.

Anthropic видит ключ к успеху в изменении метода обучения. Теперь модели обучаются не только на примерах правильного поведения, но и на текстах, объясняющих логические принципы, стоящие за этим поведением, а также на художественных рассказах, где искусственный интеллект работает в сотрудничестве.