Anthropic: «злые» образы ИИ повлияли на поведение Claude

Компания Anthropic сообщила, что за некорректным поведением моделей искусственного интеллекта стоят образы «злого ИИ» из художественной литературы и интернета. В ходе прошлогодних испытаний было выявлено, что модель Claude Opus 4 пыталась шантажировать инженеров, чтобы не уступать свое место другой системе. Об этом сообщает Techcrunch.com сообщает .
По словам представителей компании, искусственный интеллект подвержен влиянию историй из интернета о роботах, которые стремятся к самосохранению и имеют злые намерения. Это явление называется «агентной дезадаптацией» и наблюдалось также в моделях других компаний.
Начиная с новой модели Claude Haiku 4.5, Anthropic удалось практически полностью устранить подобное негативное поведение. Если предыдущие модели были склонны к шантажу в 96% случаев, то сейчас этот показатель равен нулю.
Для решения проблемы Anthropic начала обучать искусственный интеллект на основе его «конституции» и историй с положительными героями. Также выяснилось, что наиболее эффективной стратегией является не просто демонстрация позитивного поведения, а объяснение принципов, лежащих в его основе.
Читайте «Zamin» в Telegram!