Тестируем NVIDIA HGX B300 — инференс-сервер с 8 GPU и 2,3 ТБ VRAM на DeepSeek, Qwen и MiniMaxИтак, вы внедрили ИИ в свой сервис и решили ехать в продакшен, где у вас много пользователей. Закономерно возникает вопрос — а на чем запустить инференс, чтобы и пользователи были довольны скоростью работы, и бизнес не разорился. Привет! На связи Никита, системный архитектор в Selectel . Сегодня я проведу для вас небольшой эксперимент: возьму HGX™ B300 и разверну на нем DeepSeek, Qwen и MiniMax. Зачем? Чтобы протестировать систему на разных задачах, посмотреть получившиеся бенчмарки и сделать выводы о почти топовом серверном GPU от NVIDIA. Заодно кратко вспомним, что получилось, когда мы пытались запустить бюджетный инференс LLM только на CPU. Прошу под кат. Читать далее →https://habr.com/ru/companies/selectel/articles/1035066/?utm_source=habrahabr&utm_medium=rss&utm_campaign=1035066#selectel #инференс #llm #gpu #nvidia #dgx #hgx_b300
Related
🧠 Forse non siamo più solo all’inizio della capacità tecnica dell’#AI.📈 Siamo all’inizio del suo impatto reale su aziend...
🧠 Forse non siamo più solo all’inizio della capacità tecnica dell’#AI.📈 Siamo all’inizio del suo impatto reale su aziende, lavoro e società.👉 Alcune riflessioni: https://www.linked...
How to fight AI if you need to or get the chance.https://siliconreckoner.substack.com/p/questions-to-ask-ai-boosters#AI ...
How to fight AI if you need to or get the chance.https://siliconreckoner.substack.com/p/questions-to-ask-ai-boosters#AI #slop #environment #economics #StopAI
llama.cpp lands Multi-Token Prediction support with up to 1.8x speedups, OpenAI hands ChatGPT Plus to an entire country,...
llama.cpp lands Multi-Token Prediction support with up to 1.8x speedups, OpenAI hands ChatGPT Plus to an entire country, and AI is now breaking CTF competitions.https://ai0.news/po...