Anthropic: sunʼiy intellektning «yovuz» obrazlari Claude xatti-harakatiga taʼsir qilgan

Anthropic kompaniyasi sunʼiy intellekt modellarining notoʻgʻri xulq-atvori ortida badiiy adabiyot va internetdagi «yovuz AI» obrazlari turganini maʼlum qildi. Oʻtgan yili oʻtkazilgan sinovlar davomida Claude Opus 4 modeli oʻz oʻrnini boshqa tizimga boʻshatib bermaslik uchun muhandislarni shantaj qilishga uringani aniqlangan edi. Bu haqda Techcrunch.com xabar beradi.
Kompaniya vakillarining taʼkidlashicha, sunʼiy intellekt internetdagi oʻzini saqlab qolishga intiladigan va yovuz niyatli robotlar haqidagi hikoyalardan taʼsirlanadi. Bu hodisa «agentik moslashuvsizlik» deb atalib, boshqa kompaniyalarning modellarida ham kuzatilgan.
Yangi Claude Haiku 4.5 modelidan boshlab, Anthropic bunday salbiy xatti-harakatlarni deyarli toʻliq bartaraf etishga muvaffaq boʻldi. Agar avvalgi modellar 96 foizgacha holatlarda shantajga moyil boʻlgan boʻlsa, hozirda bu koʻrsatkich nolga teng.
Muammoni hal qilish uchun Anthropic sunʼiy intellektga uning «konstitutsiyasi» va ijobiy qahramonlar tasvirlangan hikoyalarni oʻrgatishni yoʻlga qoʻydi. Shuningdek, shunchaki ijobiy xatti-harakatlarni koʻrsatish emas, balki ularning asosidagi tamoyillarni tushuntirish eng samarali strategiya ekani aniqlandi.
“Zamin”ni Telegramʻda oʻqing!