Anthropic Claude Opus 4.8 tanıtıldı

Anthropic, ana modelinin bir güncellemesi olan ve kod doğruluğunda önemli iyileştirmeler vaat eden Claude Opus 4.8'i tanıttı. Önceki sürümle aynı fiyata, yani milyon giriş token'ı başına 5 dolar ve milyon çıkış token'ı başına 25 dolar olan bu sürüm, şirket tarafından Opus 4.7'ye kıyasla mütevazı ancak önemli bir iyileştirme olarak tanımlanıyor. Bu konuda haberi Habr.com veriyor.
Claude Opus 4.8'in ayırt edici özelliği, kendi kod hatalarını daha etkili bir şekilde tespit etme ve düzeltme yeteneğidir. İç ölçümlere göre model, önceki sürüme kıyasla dört kat daha az hatayı gözden kaçırıyor. Bu, büyük dil modellerinin genellikle aceleci sonuçlara varması ve yeterli kanıt olmadan başarıyı güvenle bildirmesi gibi yaygın bir sorunu çözmektedir.
Mütevazı iyileştirmelerine rağmen, Claude Opus 4.8 çeşitli kriterlerde yüksek sonuçlar gösteriyor. Ajan programlama için SWE-Bench Pro'da %69,2 puan alarak Opus 4.7'nin %64,3'lük skorunu geride bırakıyor. Bilgisayar kontrolü için OSWorld-Verified'da %83,4'e ulaşıyor ve GDPval-AA bilgi değerlendirmesinde 1890 puan toplayarak GPT-5.5'in 1769 puanını geçiyor. Ancak Terminal-Bench'teki terminal kodlamada %74,6 puan alarak GPT-5.5'in %78,2'lik sonucunun altında kalıyor.
Anthropic ayrıca, modelin aldatma veya kötüye kullanım eğilimlerinin azaldığını gösteren gelişmiş güvenliğine de dikkat çekti. Claude Opus 4.8 bu konuda deneysel Claude Mythos Preview ile neredeyse eşitlenerek, modelin davranışını etik standartlarla uyumlu hale getirmede önemli başarılar sergiliyor.
“Zamin”i Telegram'da okuyun!