Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?Когда я начал ковыряться с локальными...

Калькулятор VRAM для локальных LLM: Какие модели ИИ запустятся у вас на компьютере?Когда я начал ковыряться с локальными LLM, главная боль была не в установке моделей, а в понимании, что вообще влезет в моё железо. Документация Hugging Face говорит “Llama 3.1 8B” — что это значит для моей видеокарты с 16 GB? А если хочу 32k контекст? А с Q4_K_M? Несколько недель назад мне попался open-source калькулятор whatmodelscanirun.ru. Прогнал его на трёх своих сетапах (4060 Ti, 3090, M2 Pro), сравнил предсказания с реальными запусками через llama.cpp и разобрался, как работает математика внутри. Спойлер: алгоритм правильный, но систематически переоценивает скорость на 15-25%.https://habr.com/ru/articles/1035862/#LLM #VRAM #llamacpp #локальные_модели #квантование #KV_cache #GQA #бенчмарк #GPU

Read Original

Related