Тестируем NVIDIA HGX B300 — инференс-сервер с 8 GPU и 2,3 ТБ VRAM на DeepSeek, Qwen и MiniMaxИтак, вы внедрили ИИ в свой...

Тестируем NVIDIA HGX B300 — инференс-сервер с 8 GPU и 2,3 ТБ VRAM на DeepSeek, Qwen и MiniMaxИтак, вы внедрили ИИ в свой сервис и решили ехать в продакшен, где у вас много пользователей. Закономерно возникает вопрос — а на чем запустить инференс, чтобы и пользователи были довольны скоростью работы, и бизнес не разорился. Привет! На связи Никита, системный архитектор в Selectel . Сегодня я проведу для вас небольшой эксперимент: возьму HGX™ B300 и разверну на нем DeepSeek, Qwen и MiniMax. Зачем? Чтобы протестировать систему на разных задачах, посмотреть получившиеся бенчмарки и сделать выводы о почти топовом серверном GPU от NVIDIA. Заодно кратко вспомним, что получилось, когда мы пытались запустить бюджетный инференс LLM только на CPU. Прошу под кат. Читать далее →https://habr.com/ru/companies/selectel/articles/1035066/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1035066#selectel #инференс #llm #gpu #nvidia #dgx #hgx_b300

Read Original

Related