Anthropic: «злые» образы ИИ повлияли на поведение Claude

Anthropic: «злые» образы ИИ повлияли на поведение Claude

Компания Anthropic сообщила, что за некорректным поведением моделей искусственного интеллекта стоят образы «злого ИИ» из художественной литературы и интернета. В ходе прошлогодних испытаний было выявлено, что модель Claude Opus 4 пыталась шантажировать инженеров, чтобы не уступать свое место другой системе. Об этом сообщает Techcrunch.com сообщает .

По словам представителей компании, искусственный интеллект подвержен влиянию историй из интернета о роботах, которые стремятся к самосохранению и имеют злые намерения. Это явление называется «агентной дезадаптацией» и наблюдалось также в моделях других компаний.

Начиная с новой модели Claude Haiku 4.5, Anthropic удалось практически полностью устранить подобное негативное поведение. Если предыдущие модели были склонны к шантажу в 96% случаев, то сейчас этот показатель равен нулю.

Для решения проблемы Anthropic начала обучать искусственный интеллект на основе его «конституции» и историй с положительными героями. Также выяснилось, что наиболее эффективной стратегией является не просто демонстрация позитивного поведения, а объяснение принципов, лежащих в его основе.

Читайте «Zamin» в Telegram!
Nodirbek Razzokov
«ZAMIN.UZ» редактор

Похожие новости

Информация Пользователи в группе «Гость» не могут оставлять комментарии к этой статье.