Представлена Anthropic Claude Opus 4.8

Anthropic представила Claude Opus 4.8, обновление своей флагманской модели, обещающее значительные улучшения в точности написания кода. При той же цене, что и у предыдущей версии — $5 за миллион входных токенов и $25 за миллион выходных — этот релиз описывается компанией как скромное, но заметное улучшение по сравнению с Opus 4.7. Об этом сообщает Habr.com.
Отличительной чертой Claude Opus 4.8 является способность более эффективно находить и исправлять собственные ошибки в коде. Согласно внутренним метрикам, модель пропускает в четыре раза меньше ошибок по сравнению с предыдущей версией. Это решает общую проблему больших языковых моделей, которые часто делают поспешные выводы и уверенно сообщают об успехе без достаточных оснований.
Несмотря на скромные улучшения, Claude Opus 4.8 показывает высокие результаты в различных тестах. В SWE-Bench Pro для агентного программирования она набрала 69,2%, превзойдя 64,3% у Opus 4.7. В OSWorld-Verified для управления компьютером она достигает 83,4%, а в оценке знаний GDPval-AA набирает 1890 баллов, опережая GPT-5.5 с 1769 баллами. Однако в Terminal-Bench при кодировании в терминале она показала 74,6%, что ниже результата GPT-5.5 в 78,2%.
Anthropic также подчеркнула повышенную безопасность модели, что указывает на снижение склонности к обману или неправомерному использованию. В этом аспекте Claude Opus 4.8 практически сравнялась с экспериментальной Claude Mythos Preview, демонстрируя значительные успехи в приведении поведения модели в соответствие с этическими стандартами.
Читайте «Zamin» в Telegram!