Модели почти год, а она всё ещё №1 по цене/качеству. Прогнал свежий батл-тест — и опять не сдвинулЯ собрал четыре модели...

Модели почти год, а она всё ещё №1 по цене/качеству. Прогнал свежий батл-тест — и опять не сдвинулЯ собрал четыре модели в один батч — две Gemma, DeepSeek V4 Flash и Qwen3-235B — потому что не поверил кросс-сессионным данным: выходило, что маленькая Gemma обошла большую. В честной очной ставке сюрприз развеялся, обе Gemma оказались вровень. Зато всплыло другое. DeepSeek V4 Flash, который у меня числился на 83, выдал 89 — был недооценён на 6 баллов. А Qwen3-235B-A22B-2507 — модель, вышедшая 21 июля 2025 года, — снова взяла первое место по цене/качеству. Почти год прошёл: Gemini прыгнул с 57 до 97, DeepSeek я перетестировал трижды, MiniMax все хвалят как ровню Opus. А этот июльский чекпойнт просто держит трон, и я уже почти обижаюсь за прогресс. В статье: разбор очной ставки, хронология ретестов одной модели за год, новый критерий — скорость генерации, ещё восемь моделей июня, непопулярное мнение про раскрутку MiniMax и две новые колонки на лидерборде.https://habr.com/ru/articles/1046582...

Модели почти год, а она всё ещё №1 по цене/качеству. Прогнал свежий батл-тест — и опять не сдвинулЯ собрал четыре модели...

Metadata

Related

✍️ But against the long-form, designer-built stuff, it tied and went no further. The human edge, per the paper: angle, d...

🪑 An AI just built a seven-seat newsroom and filled five of the chairs. The two it couldn't fill are the ones with the m...

🤖 Oxford + Stanford set 7 agents loose on raw spreadsheets. Blind test vs the human-written originals: 39 of 53 readers ...