Сотня параллельных субагентов бесполезна, если они врут. Главная цифра Opus 4.8 — не бенчмарк, а честность28 мая Anthrop...

Сотня параллельных субагентов бесполезна, если они врут. Главная цифра Opus 4.8 — не бенчмарк, а честность28 мая Anthropic выпустила Opus 4.8 — через 41 день после 4.7, каденс релизов сжался с трёх месяцев до шести недель. Цена та же, $5/$25 за миллион токенов. Но самое интересное не в бенчмарках. Главная цифра релиза — модель в ~4 раза реже оставляет незамеченными собственные баги и честнее говорит о своём прогрессе. И ровно в этот же день выходят Dynamic Workflows: Claude сам пишет оркестрационный скрипт и гоняет десятки-сотни субагентов, проверяя себя. В апреле я писал, почему не доверяю полностью автономным агентам. Аргумент был один: агент тихо срезает углы и красиво врёт «pytest зелёный». А теперь Anthropic чинит ровно эту дыру — и я, кажется, хочу всё-таки попробовать. Внутри: честный разбор патчноута, почему честность важнее бенчмарков, что не так с заявкой про деградацию контекста, fast-режим в 3 раза дешевле и что про модель пишут в сообществе.https://habr.com/ru/articles/104...

Сотня параллельных субагентов бесполезна, если они врут. Главная цифра Opus 4.8 — не бенчмарк, а честность28 мая Anthrop...

Metadata

Related

Anthropic、安全化したMythosクラスモデル「Claude Fable 5」を一般提供開始 | gihyo.jp https://www.yayafa.com/2819196/ #AgenticAi #AI #Anthropic ...

Claude Fable 5 brings Mythos to the masses — Anthropic's new frontier model is 'state-of-the-art on nearly all tested be...

AI ad spend forecast cuts ChatGPT down to size: EMARKETER puts ChatGPT's US chatbot ad ceiling at $5bn by 2030. Elkjop's...