Представлена Anthropic Claude Опус 4.8

Anthropic представила Claude Опус 4.8, обновление своей флагманской модели, обещающее значительные улучшения в точности написания кода. При той же цене, что и у предыдущей версии — $5 за миллион входных токенов и $25 за миллион выходных — этот релиз описывается компанией как скромное, но заметное улучшение по сравнению с Опус 4.7. Об этом сообщает Хабр.ком.
Отличительной чертой Claude Опус 4.8 является способность более эффективно находить и исправлять собственные ошибки в коде. Согласно внутренним метрикам, модель пропускает в четыре раза меньше ошибок по сравнению с предыдущей версией. Это решает общую проблему больших языковых моделей, которые часто делают поспешные выводы и уверенно сообщают об успехе без достаточных оснований.
Несмотря на скромные улучшения, Claude Опус 4.8 показывает высокие результаты в различных тестах. В СВЭ-Бенч Pro для агентного программирования она набрала 69,2%, превзойдя 64,3% у Опус 4.7. В ОСВорлд-Верифиед для управления компьютером она достигает 83,4%, а в оценке знаний ГДПвал-АА набирает 1890 баллов, опережая GPT-5.5 с 1769 баллами. Однако в Терминал-Бенч при кодировании в терминале она показала 74,6%, что ниже результата GPT-5.5 в 78,2%.
Anthropic также подчеркнула повышенную безопасность модели, что указывает на снижение склонности к обману или неправомерному использованию. В этом аспекте Claude Опус 4.8 практически сравнялась с экспериментальной Claude Мйтос Превиев, демонстрируя значительные успехи в приведении поведения модели в соответствие с этическими стандартами.





















Комментарии 0
…