Anthropic представила Claude Opus 4.8: кращий у програмуванні та чесніший у відповідях

Anthropic представила Claude Opus 4.8: кращий у програмуванні та чесніший у відповідях

Anthropic оголосила про запуск своєї найновішої AI-моделі Claude Opus 4.8. У компанії стверджують, що модель стала «ефективнішим партнером» завдяки покращенням в агентному програмуванні, міждисциплінарному міркуванні, агентному використанні комп’ютера, роботі зі знаннями та агентному фінансовому аналізі.

Тестувальники зазначають, що Opus 4.8 є «надійнішою та точнішою у своїх судженнях» під час виконання агентних завдань, а також стала чеснішою.

Перші тестувальники повідомляють, що Opus 4.8 частіше позначає невизначеність у своїй роботі та рідше робить непідтверджені твердження. Це підтверджують і наші оцінювання: вони показують, що Opus 4.8 приблизно в чотири рази рідше, ніж попередниця, пропускає непоміченими вади в написаному нею коді.

Оцінювання узгодженості (alignment) свідчать, що модель досягла нових максимумів за показниками просоціальних рис — зокрема підтримки автономії користувача та дій в його найкращих інтересах. Рівень неузгодженої поведінки на кшталт обману нижчий, ніж у Opus 4.7, і подібний до Claude Mythos Preview.

За бенчмарками Anthropic, Opus 4.8 набрала 69,2% у SWE-Bench Pro, випередивши GPT–5.5 і Gemini 3.1 Pro у цьому тесті та ще в кількох інших, хоча GPT–5.5 лідирує в бенчмарку terminal-coding.

Швидкий режим Opus 4.8 також працює у 2,5 раза швидше, а сама модель тепер утричі дешевша за попередні.

Разом із Opus 4.8 Anthropic додає нові функції до своєї лінійки продуктів.

  • Динамічні робочі процеси (research preview) — Claude може виконувати масштабніші завдання в Claude Code. Вона здатна планувати роботу та запускати сотні паралельних субагентів в межах однієї сесії. Також може виконувати міграції на рівні всього кодового базису на сотнях тисяч рядків коду. Функція доступна в Claude Code для планів Enterprise, Team і Max.
  • Керування зусиллям — у Claude.ai та Cowork користувачі можуть обирати, скільки зусиль Claude вкладає у відповідь. За нижчого рівня Claude відповідатиме швидше та повільніше витрачатиме ліміти запитів. Для Opus 4.8 за замовчуванням встановлено високий рівень зусиль, який, за словами Anthropic, найкраще балансує якість і користувацький досвід.
  • Messages API — Messages API приймає системні записи всередині масиву повідомлень, тож розробники можуть оновлювати інструкції для Claude посеред виконання завдання.

Claude Opus 4.8 доступна всюди вже сьогодні. Ціни на звичайне використання не змінилися порівняно з Opus 4.7.

Anthropic працює над моделями з такими самими можливостями, як у Opus 4.8, але за нижчої вартості, а також над новим класом моделей, які будуть ще розумнішими за Opus. Компанія каже, що розробляє запобіжники для моделі Claude Mythos, яку тестує з невеликою кількістю організацій, і очікує, що зможе надати моделі класу Mythos усім клієнтам «у найближчі тижні».

Джерело: macrumors.com

0 коментарів

Поки немає коментарів…