Anthropic Claude Opus 4.8 taqdim etildi

Anthropic Claude Opus 4.8 ni taqdim etdi, bu uning asosiy modelining yangilanishi bo'lib, kod aniqligida sezilarli yaxshilanishlarni va'da qiladi. Oldingi versiyasi bilan bir xil narxda, ya'ni million kirish tokenlari uchun $5 va million chiqish tokenlari uchun $25, ushbu nashr kompaniya tomonidan Opus 4.7 ga nisbatan kamtarona, ammo sezilarli yaxshilanish sifatida tavsiflanadi. Bu haqda Habr.com xabar beradi.
Claude Opus 4.8 ning ajralib turadigan xususiyati uning o'z kod xatolarini yanada samarali aniqlash va tuzatish qobiliyatidir. Ichki o'lchovlarga ko'ra, model oldingi versiyaga nisbatan to'rt barobar kamroq xatolarni e'tibordan chetda qoldiradi. Bu katta til modellari bilan bog'liq umumiy muammoni hal qiladi, chunki ular ko'pincha shoshilinch xulosalar chiqaradi va etarli dalilsiz muvaffaqiyatni ishonch bilan xabar qiladi.
Kamtarona yaxshilanishlariga qaramay, Claude Opus 4.8 turli mezonlarda yuqori natijalar ko'rsatadi. U agent dasturlash uchun SWE-Bench Pro da 69.2% ball to'plab, Opus 4.7 ning 64.3% ballidan o'zib ketadi. Kompyuter boshqaruvi uchun OSWorld-Verified da 83.4% ga erishadi va GDPval-AA bilim baholashida 1890 ball to'plab, GPT-5.5 ning 1769 ballidan ustun keladi. Biroq, Terminal-Bench da terminal kodlashda 74.6% ball to'plab, GPT-5.5 ning 78.2% ballidan pastroq natija ko'rsatadi.
Anthropic, shuningdek, modelning yaxshilangan xavfsizligini ta'kidladi, bu esa aldash yoki noto'g'ri foydalanish tendensiyalarining kamayishini ko'rsatadi. Claude Opus 4.8 bu borada eksperimental Claude Mythos Preview ga deyarli tenglashib, modelning xulq-atvorini axloqiy standartlarga moslashtirishda sezilarli yutuqlarni ko'rsatadi.
“Zamin”ni Telegramʻda oʻqing!