Как я мерил точность ИИ в распознавании еды: бенчмарк, LLM-as-judge и баг с варёной гречкойСтрою приложение для подсчёта калорий по фото. Пользователь снимает тарелку, модель определяет блюдо, считает КБЖУ. Идея не новая, но мне важно, чтобы это работало именно на русской еде — борщи, гречки, котлеты по-домашнему. В какой-то момент стало некомфортно: я не знал, насколько модель вообще точна. «Кажется, работает нормально» — плохой ответ, если хочешь что-то улучшать. Решил померять нормально. Расскажу, что и как мерил, что получил — и про неожиданный вывод в конце, ради которого, честно говоря, и стоило это всё делать. Спойлер: распознавание оказалось готовым к проду (93.9%), а вот confidence от модели — почти константой, на которой нельзя строить логику. И главная ошибка в калориях пряталась совсем не там, где я её искал.https://habr.com/ru/articles/1046914/#LLM #бенчмарк #распознавание_еды #computer_vision #RAG #Gemini #подсчёт_калорий #LLMasjudge #оценка_качества_моделей #нутриенты
Related
NVIDIAとSK hynix、次世代メモリ開発/供給で提携。AIデータセンター向け – PC Watch https://www.yayafa.com/2822189/ #AgenticAi #AI #ArtificialGeneralI...
NVIDIAとSK hynix、次世代メモリ開発/供給で提携。AIデータセンター向け – PC Watch https://www.yayafa.com/2822189/ #AgenticAi #AI #ArtificialGeneralIntelligence #ArtificialIntelligence #GPU #NVIDIA #エージェント型AI ...
🤖 Anthropic CEO Floats Tax on AI Firms to Fund Universal IncomeAnthropic CEO Dario Amodei called on governments to tax A...
🤖 Anthropic CEO Floats Tax on AI Firms to Fund Universal IncomeAnthropic CEO Dario Amodei called on governments to tax AI companies to fund a universal basic income and introduce e...
Craig Federighi and Greg Joswiak talk Siri AI and more in new interview [Video]On the heels of Apple’s WWDC keynote this...
Craig Federighi and Greg Joswiak talk Siri AI and more in new interview [Video]On the heels of Apple’s WWDC keynote this week, Greg Joswiak and Craig Federighi sat down with Laurie...