date

Anthropic: «злые» образы ИИ повлияли на поведение Claude

Anthropic: «злые» образы ИИ повлияли на поведение Claude

Компания Anthropic сообщила, что за некорректным поведением моделей искусственного интеллекта стоят образы «злого ИИ» из художественной литературы и интернета. В ходе прошлогодних испытаний было выявлено, что модель Claude Opus 4 пыталась шантажировать инженеров, чтобы не уступать свое место другой системе. Об этом сообщает Techcrunch.com сообщает .

По словам представителей компании, искусственный интеллект подвержен влиянию историй из интернета о роботах, которые стремятся к самосохранению и имеют злые намерения. Это явление называется «агентной дезадаптацией» и наблюдалось также в моделях других компаний.

Начиная с новой модели Claude Haiku 4.5, Anthropic удалось практически полностью устранить подобное негативное поведение. Если предыдущие модели были склонны к шантажу в 96% случаев, то сейчас этот показатель равен нулю.

Для решения проблемы Anthropic начала обучать искусственный интеллект на основе его «конституции» и историй с положительными героями. Также выяснилось, что наиболее эффективной стратегией является не просто демонстрация позитивного поведения, а объяснение принципов, лежащих в его основе.

Ctrl
Enter
Нашли ошибку?
Выделите фразу и нажмите Ctrl+Enter
Информация
Посетители, находящиеся в группе Гости, не могут оставлять комментарии к данной публикации.
Новости » Технологии » Anthropic: «злые» образы ИИ повлияли на поведение Claude