Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкойСтрою приложение для подсчёта...

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкойСтрою приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему. В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. Решил померять нормально. Расскажу, что и как мерил, что получил — и про неожиданный вывод в конце, ради которого, честно говоря, и стоило это всё делать. Спойлер: распознавание оказалось готовым к проду (93.9%), а вот confidence от модели — почти константой, на которой нельзя строить логику. И главная ошибка в калориях пряталась совсем не там, где я её искал.https://habr.com/ru/articles/1046914/#LLM #бенчмарк #распознавание_еды #computer_vision #RAG #Gemini #подсчёт_калорий #LLMasjudge #оценка_качества_моделей #нутриенты

Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкойСтрою приложение для подсчёта...

Metadata

Related

NVIDIAとSK hynix、次世代メモリ開発/供給で提携。AIデータセンター向け – PC Watch https://www.yayafa.com/2822189/ #AgenticAi #AI #ArtificialGeneralI...

🤖 Anthropic CEO Floats Tax on AI Firms to Fund Universal IncomeAnthropic CEO Dario Amodei called on governments to tax A...

Craig Federighi and Greg Joswiak talk Siri AI and more in new interview [Video]On the heels of Apple’s WWDC keynote this...