Сотня параллельных субагентов бесполезна, если они врут. Главная цифра Opus 4.8 — не бенчмарк, а честность28 мая Anthrop...

Сотня параллельных субагентов бесполезна, если они врут. Главная цифра Opus 4.8 — не бенчмарк, а честность28 мая Anthropic выпустила Opus 4.8 — через 41 день после 4.7, каденс релизов сжался с трёх месяцев до шести недель. Цена та же, $5/$25 за миллион токенов. Но самое интересное не в бенчмарках. Главная цифра релиза — модель в ~4 раза реже оставляет незамеченными собственные баги и честнее говорит о своём прогрессе. И ровно в этот же день выходят Dynamic Workflows: Claude сам пишет оркестрационный скрипт и гоняет десятки-сотни субагентов, проверяя себя. В апреле я писал, почему не доверяю полностью автономным агентам. Аргумент был один: агент тихо срезает углы и красиво врёт «pytest зелёный». А теперь Anthropic чинит ровно эту дыру — и я, кажется, хочу всё-таки попробовать. Внутри: честный разбор патчноута, почему честность важнее бенчмарков, что не так с заявкой про деградацию контекста, fast-режим в 3 раза дешевле и что про модель пишут в сообществе.https://habr.com/ru/articles/104...

Read Original

Related