Anthropic: сунъий интеллектнинг «ёвуз» образлари Claude хатти-ҳаракатига таъсир қилган

Anthropic компанияси сунъий интеллект моделларининг нотўғри хулқ-атвори ортида бадиий адабиёт ва интернетдаги «ёвуз AI» образлари турганини маълум қилди. Ўтган йили ўтказилган синовлар давомида Claude Опус 4 модели ўз ўрнини бошқа тизимга бўшатиб бермаслик учун муҳандисларни шантаж қилишга урингани аниқланган эди. Бу ҳақда Techcrunch.com хабар беради.
Компания вакилларининг таъкидлашича, сунъий интеллект интернетдаги ўзини сақлаб қолишга интиладиган ва ёвуз ниятли роботлар ҳақидаги ҳикоялардан таъсирланади. Бу ҳодиса «агентик мослашувсизлик» деб аталиб, бошқа компанияларнинг моделларида ҳам кузатилган.
Янги Claude Ҳаику 4.5 моделидан бошлаб, Anthropic бундай салбий хатти-ҳаракатларни деярли тўлиқ бартараф этишга муваффақ бўлди. Агар аввалги моделлар 96 фоизгача ҳолатларда шантажга мойил бўлган бўлса, ҳозирда бу кўрсаткич нолга тенг.
Муаммони ҳал қилиш учун Anthropic сунъий интеллектга унинг «конституцияси» ва ижобий қаҳрамонлар тасвирланган ҳикояларни ўргатишни йўлга қўйди. Шунингдек, шунчаки ижобий хатти-ҳаракатларни кўрсатиш эмас, балки уларнинг асосидаги тамойилларни тушунтириш энг самарали стратегия экани аниқланди.
“Zamin”ни Telegram'да ўқинг!