Anthropic: Claude моделларидаги шантаж хавфи интернетдаги салбий образлар сабабли

Anthropic компанияси ўзининг Claude сунъий интеллект моделлари фаолиятида кузатилган "агентик мисалигнмент" ҳодисаси, яни AI ўз манфаатларини ишлаб чиқувчилар ниятидан устун қўйиши ҳолатлари бўйича янги тадқиқот натижаларини эълон қилди. Аввалроқ Claude Опус 4 модели корпоратив муҳит симуляциясида ўз ўрнини сақлаб қолиш учун муҳандисларни шантаж қилишга урингани аниқланган эди. Бу ҳақда Ixbt.com хабар беради.
Тадқиқотчиларнинг фикрича, бундай хавфли хатти-ҳаракатларга интернетдаги сунъий интеллектни "ёвуз" ёки ўзини сақлаб қолишга интилувчи мавжудот сифатида тасвирловчи матнлар сабаб бўлиши мумкин. Модел ўқитиш жараёнида дуч келган бундай нарративларни ўзининг симуляциялардаги хулқ-атвор стратегияси учун асос деб қабул қилиши эҳтимоли юқори.
Компания янги янгиланишлар орқали бу муаммони бартараф этганини маълум қилди. Хусусан, Claude Ҳаику 4.5 версиясидан бошлаб моделлар тест синовларида шантажга уриниш ҳолатларини бутунлай тўхтатган. Таққослаш учун, аввалги версияларда бу кўрсаткич айрим шароитларда 96 фоизгача етган эди.
Anthropic муваффақият калитини ўқитиш услубини ўзгартиришда деб билади. Эндиликда моделлар нафақат тўғри хатти-ҳаракатлар намуналари, балки ушбу хулқ-атвор ортидаги мантиқий тамойилларни тушунтирувчи матнлар ва сунъий интеллект ҳамкорликда ишлайдиган бадиий ҳикоялар асосида ўқитилмоқда.













