Какая видеокарта нужна для локального запуска LLM
Запустить языковую модель на своём сервере реально и часто дешевле облачных API. Главный вопрос — сколько нужно видеопамяти. Разбираем на популярных моделях: сколько VRAM требует каждая и какая видеокарта подойдёт.
Локальный запуск LLM даёт три вещи, которых нет у облачных API: приватность данных, фиксированную цену и отсутствие лимитов. Но чтобы модель просто загрузилась, нужна видеокарта с достаточным объёмом памяти (VRAM). Разберём, сколько её нужно и как сэкономить квантизацией.
От чего зависит объём VRAM
Память под инференс (запуск готовой модели) складывается из двух частей: веса модели + контекст (KV-кэш). Грубая оценка весов:
- fp16 (полная точность): ~2 ГБ на каждый миллиард параметров. Модель 7B ≈ 14 ГБ только весов.
- 4-bit (квантизация): ~0,6 ГБ на миллиард. Та же 7B ≈ 4–5 ГБ. Плюс запас на контекст.
Квантизация — сжатие весов до 4–8 бит. Она кратно снижает требования к VRAM при минимальной потере качества, поэтому для локального инференса это стандарт. Именно она позволяет запустить 70B-модель на паре RTX 4090.
Таблица: модель → VRAM → видеокарта
Ориентир для инференса популярных открытых моделей. Для обучения (fine-tuning) требования в разы выше.
| Модель (размер) | VRAM: 4-bit / fp16 | Видеокарта |
|---|---|---|
| 7–8B — Qwen2.5-7B, Llama 3 8B, Mistral 7B | ~6–8 / ~16 ГБ | RTX 3090 или 4090 (24 ГБ) |
| 14B — Qwen2.5-14B, DeepSeek-R1 14B | ~10–12 / ~28 ГБ | RTX 4090 (24 ГБ) |
| 32B — Qwen2.5-32B, DeepSeek 32B | ~20 / ~64 ГБ | RTX 4090 (4-bit) или 2×4090 |
| 70B — Llama 3 70B, Qwen2.5-72B | ~40–48 / ~140 ГБ | 2×RTX 4090 (48 ГБ) |
| 100B+ — DeepSeek-V3 и крупнее | 80+ ГБ | A100 / H100 (под задачу) |
Значения приблизительные и зависят от длины контекста и движка (llama.cpp, vLLM, TGI). С запасом на контекст берите на ступень выше.
Нужен GPU-сервер под вашу модель?
Подберём видеокарту под конкретную LLM и нагрузку — RTX 3090, RTX 4090, мульти-GPU или A100. Данные не покидают РФ.
Какую модель выбрать под задачу
- Чат-бот, ассистент, обработка документов: 7–14B обычно достаточно, работает на одной RTX 4090.
- Качественные рассуждения, код, сложные задачи: 32–70B заметно умнее, нужна 4090 в квантизации или 2×4090.
- Максимальное качество: 100B+ и топовые модели — конфигурация с A100/H100.
Для большинства бизнес-задач (внутренний ассистент, поиск по документам, автоматизация) хватает модели 14–32B на одной-двух картах — это и есть «сладкая точка» цена/качество.
Почему локально, а не через облачный API
При постоянной нагрузке свой GPU-сервер окупается: вы платите фиксированную сумму в месяц вместо оплаты за каждый токен, данные остаются в России (важно для 152-ФЗ), нет лимитов и очередей. Если сервер нужен ещё и под обычные задачи — посмотрите аренду выделенных серверов.
Частые вопросы
Какая видеокарта нужна для Llama 3 70B?
В 4-битной квантизации 70B помещается примерно в 40–48 ГБ VRAM — это конфигурация из двух RTX 4090 (48 ГБ суммарно). В полной точности потребуется A100/H100.
Что такое квантизация и теряется ли качество?
Квантизация — сжатие весов модели до 4–8 бит. Она кратно снижает требования к VRAM при минимальной, обычно незаметной для бизнес-задач потере качества.
Можно ли арендовать GPU-сервер под обучение модели?
Да. Для обучения требования к памяти выше, чем для инференса — подберём конфигурацию с несколькими картами или A100 по договору от 12 месяцев.