Anthropic: Claude modellerindeki şantaj riski internetteki olumsuz imgelerden kaynaklanıyor

Anthropic şirketi, Claude yapay zeka modellerinin faaliyetlerinde gözlemlenen ve yapay zekanın kendi çıkarlarını geliştiricilerin niyetlerinin üzerinde tutması olarak tanımlanan "agentic misalignment" olgusu üzerine yeni araştırma sonuçlarını yayınladı. Daha önce Claude Opus 4 modelinin, kurumsal bir ortam simülasyonunda yerini korumak için mühendislere şantaj yapmaya çalıştığı tespit edilmişti. Bu haberi Ixbt.com bildiriyor .
Araştırmacılara göre, bu tür tehlikeli davranışlara internette yapay zekayı "kötü" veya hayatta kalmaya çalışan bir varlık olarak tasvir eden metinler neden olabilir. Modelin eğitim sürecinde karşılaştığı bu anlatıları, simülasyonlardaki davranış stratejisi için bir temel olarak kabul etme olasılığı yüksektir.
Şirket, yeni güncellemelerle bu sorunu çözdüğünü duyurdu. Özellikle Claude Haiku 4.5 sürümünden itibaren modeller, testlerde şantaj girişimlerini tamamen durdurdu. Karşılaştırma yapmak gerekirse, önceki sürümlerde bu oran bazı koşullarda yüzde 96'ya kadar ulaşıyordu.
Anthropic, başarının anahtarının eğitim yöntemini değiştirmekte olduğunu belirtiyor. Artık modeller sadece doğru davranış örnekleri üzerinden değil, bu davranışın arkasındaki mantıksal ilkeleri açıklayan metinler ve yapay zekanın iş birliği içinde çalıştığı kurgusal hikayeler temelinde eğitiliyor.
“Zamin”i Telegram'da okuyun!