Модели почти год, а она всё ещё №1 по цене/качеству. Прогнал свежий батл-тест — и опять не сдвинулЯ собрал четыре модели в один батч — две Gemma, DeepSeek V4 Flash и Qwen3-235B — потому что не поверил кросс-сессионным данным: выходило, что маленькая Gemma обошла большую. В честной очной ставке сюрприз развеялся, обе Gemma оказались вровень. Зато всплыло другое. DeepSeek V4 Flash, который у меня числился на 83, выдал 89 — был недооценён на 6 баллов. А Qwen3-235B-A22B-2507 — модель, вышедшая 21 июля 2025 года, — снова взяла первое место по цене/качеству. Почти год прошёл: Gemini прыгнул с 57 до 97, DeepSeek я перетестировал трижды, MiniMax все хвалят как ровню Opus. А этот июльский чекпойнт просто держит трон, и я уже почти обижаюсь за прогресс. В статье: разбор очной ставки, хронология ретестов одной модели за год, новый критерий — скорость генерации, ещё восемь моделей июня, непопулярное мнение про раскрутку MiniMax и две новые колонки на лидерборде.https://habr.com/ru/articles/1046582...
Related
✍️ But against the long-form, designer-built stuff, it tied and went no further. The human edge, per the paper: angle, d...
✍️ But against the long-form, designer-built stuff, it tied and went no further. The human edge, per the paper: angle, design, presentation. The editors and designers were never th...
🪑 An AI just built a seven-seat newsroom and filled five of the chairs. The two it couldn't fill are the ones with the m...
🪑 An AI just built a seven-seat newsroom and filled five of the chairs. The two it couldn't fill are the ones with the most human job titles: Editor and Designer. (1/3) #AI #Media ...
🤖 Oxford + Stanford set 7 agents loose on raw spreadsheets. Blind test vs the human-written originals: 39 of 53 readers ...
🤖 Oxford + Stanford set 7 agents loose on raw spreadsheets. Blind test vs the human-written originals: 39 of 53 readers preferred the machine. 93% of its claims trace to a line of ...