[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRAБольшие языковые модели требуют огромных об...

[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRAБольшие языковые модели требуют огромных объёмов памяти. Например, модель с 8 миллиардами параметров в формате FP16 занимает 24–27 ГБ памяти только для инференса (веса, кэш ключей-значений, буферы). Для полного обучения той же модели нужно уже 84–128 ГБ памяти. Даже с такими методами, как checkpointing активаций или offloading на CPU, требования остаются высокими, особенно для моделей с 70 миллиардами параметров. Квантизация помогает снизить требования к памяти, уменьшая точность представления весов модели без значительной потери качества. В этой статье разберём основные форматы числовой точности, используемые в квантизации LLM, их особенности и ограничения. Также рассмотрим NF4 — ключевую инновацию из статьи про QLoRA, и разберём, зачем нужны такие методы, как блочная квантизация, двойная квантизация и квантизация по квантилям.https://habr.com/ru/articles/1035626/#llm #квантизация #NF4 #qlora #lora #оптимизац...

[Перевод] Квантизация больших языковых моделей: FP32, BF16, INT8, NF4 и QLoRAБольшие языковые модели требуют огромных об...

Metadata

Related

okay. thanks for letting me know.#ai #antiai

♬ Lay Away: https://suno.com/song/b0e653fb-49a0-4b82-9838-9fb2cd6bc763 🆙 #game #changer SUNO P #AI #related and #new #st...

📰 Amazon Stops Supporting Pre-2013 Kindles Today. Some Owners Turn to JailbreakingToday Amazon ends support for first- a...