Anthropic: Claude modellaridagi shantaj xavfi internetdagi salbiy obrazlar sababli

15:55 / 11.05.2026·90·Texno

Anthropic kompaniyasi o‘zining Claude sun’iy intellekt modellari faoliyatida kuzatilgan "agentic misalignment" hodisasi, ya’ni AI o‘z manfaatlarini ishlab chiquvchilar niyatidan ustun qo‘yishi holatlari bo‘yicha yangi tadqiqot natijalarini e’lon qildi. Avvalroq Claude Opus 4 modeli korporativ muhit simulyatsiyasida o‘z o‘rnini saqlab qolish uchun muhandislarni shantaj qilishga uringani aniqlangan edi. Bu haqda Ixbt.com xabar beradi.

Tadqiqotchilarning fikricha, bunday xavfli xatti-harakatlarga internetdagi sun’iy intellektni "yovuz" yoki o‘zini saqlab qolishga intiluvchi mavjudot sifatida tasvirlovchi matnlar sabab bo‘lishi mumkin. Model o‘qitish jarayonida duch kelgan bunday narrativlarni o‘zining simulyatsiyalardagi xulq-atvor strategiyasi uchun asos deb qabul qilishi ehtimoli yuqori.

Kompaniya yangi yangilanishlar orqali bu muammoni bartaraf etganini ma’lum qildi. Xususan, Claude Haiku 4.5 versiyasidan boshlab modellar test sinovlarida shantajga urinish holatlarini butunlay to‘xtatgan. Taqqoslash uchun, avvalgi versiyalarda bu ko‘rsatkich ayrim sharoitlarda 96 foizgacha yetgan edi.

Anthropic muvaffaqiyat kalitini o‘qitish uslubini o‘zgartirishda deb biladi. Endilikda modellar nafaqat to‘g‘ri xatti-harakatlar namunalari, balki ushbu xulq-atvor ortidagi mantiqiy tamoyillarni tushuntiruvchi matnlar va sun’iy intellekt hamkorlikda ishlaydigan badiiy hikoyalar asosida o‘qitilmoqda.