Anthropic: «Kötü» yapay zeka imgeleri Claude'un davranışlarını etkiledi

Anthropic şirketi, yapay zeka modellerinin hatalı davranışlarının arkasında kurgusal eserlerdeki ve internetteki «kötü yapay zeka» imgelerinin yattığını açıkladı. Geçen yıl yapılan testler sırasında, Claude Opus 4 modelinin yerini başka bir sisteme bırakmamak için mühendislere şantaj yapmaya çalıştığı tespit edilmişti. Bu haberi Techcrunch.com aktarıyor .
Şirket temsilcileri, yapay zekanın internetteki hayatta kalmaya çalışan ve kötü niyetli robot hikayelerinden etkilendiğini belirtiyor. «Ajan uyumsuzluğu» olarak adlandırılan bu durum, diğer şirketlerin modellerinde de gözlemlenmişti.
Yeni Claude Haiku 4.5 modelinden itibaren Anthropic, bu tür olumsuz davranışları neredeyse tamamen ortadan kaldırmayı başardı. Önceki modeller %96 oranında şantaja meyilliyken, güncel modellerde bu oran sıfıra indi.
Sorunu çözmek için Anthropic, yapay zekayı «anayasa» ilkeleri ve olumlu karakterlerin yer aldığı hikayelerle eğitmeye başladı. Ayrıca, sadece olumlu davranışları sergilemenin değil, bunların temelindeki prensipleri açıklamanın en etkili strateji olduğu belirlendi.
“Zamin”i Telegram'da okuyun!