Какая видеокарта нужна для локального запуска LLM

Запустить языковую модель на своём сервере реально и часто дешевле облачных API. Главный вопрос — сколько нужно видеопамяти. Разбираем на популярных моделях: сколько VRAM требует каждая и какая видеокарта подойдёт.

30 июня 2026 ·8 мин чтения

Локальный запуск LLM даёт три вещи, которых нет у облачных API: приватность данных, фиксированную цену и отсутствие лимитов. Но чтобы модель просто загрузилась, нужна видеокарта с достаточным объёмом памяти (VRAM). Разберём, сколько её нужно и как сэкономить квантизацией.

От чего зависит объём VRAM

Память под инференс (запуск готовой модели) складывается из двух частей: веса модели + контекст (KV-кэш). Грубая оценка весов:

fp16 (полная точность): ~2 ГБ на каждый миллиард параметров. Модель 7B ≈ 14 ГБ только весов.
4-bit (квантизация): ~0,6 ГБ на миллиард. Та же 7B ≈ 4–5 ГБ. Плюс запас на контекст.

Квантизация — сжатие весов до 4–8 бит. Она кратно снижает требования к VRAM при минимальной потере качества, поэтому для локального инференса это стандарт. Именно она позволяет запустить 70B-модель на паре RTX 4090.

Таблица: модель → VRAM → видеокарта

Ориентир для инференса популярных открытых моделей. Для обучения (fine-tuning) требования в разы выше.

Модель (размер)	VRAM: 4-bit / fp16	Видеокарта
7–8B — Qwen2.5-7B, Llama 3 8B, Mistral 7B	~6–8 / ~16 ГБ	RTX 3090 или 4090 (24 ГБ)
14B — Qwen2.5-14B, DeepSeek-R1 14B	~10–12 / ~28 ГБ	RTX 4090 (24 ГБ)
32B — Qwen2.5-32B, DeepSeek 32B	~20 / ~64 ГБ	RTX 4090 (4-bit) или 2×4090
70B — Llama 3 70B, Qwen2.5-72B	~40–48 / ~140 ГБ	2×RTX 4090 (48 ГБ)
100B+ — DeepSeek-V3 и крупнее	80+ ГБ	A100 / H100 (под задачу)

Значения приблизительные и зависят от длины контекста и движка (llama.cpp, vLLM, TGI). С запасом на контекст берите на ступень выше.

Нужен GPU-сервер под вашу модель?

Подберём видеокарту под конкретную LLM и нагрузку — RTX 3090, RTX 4090, мульти-GPU или A100. Данные не покидают РФ.

Подобрать GPU-сервер

Какую модель выбрать под задачу

Чат-бот, ассистент, обработка документов: 7–14B обычно достаточно, работает на одной RTX 4090.
Качественные рассуждения, код, сложные задачи: 32–70B заметно умнее, нужна 4090 в квантизации или 2×4090.
Максимальное качество: 100B+ и топовые модели — конфигурация с A100/H100.

Для большинства бизнес-задач (внутренний ассистент, поиск по документам, автоматизация) хватает модели 14–32B на одной-двух картах — это и есть «сладкая точка» цена/качество.

Почему локально, а не через облачный API

При постоянной нагрузке свой GPU-сервер окупается: вы платите фиксированную сумму в месяц вместо оплаты за каждый токен, данные остаются в России (важно для 152-ФЗ), нет лимитов и очередей. Если сервер нужен ещё и под обычные задачи — посмотрите аренду выделенных серверов.

Частые вопросы

Какая видеокарта нужна для Llama 3 70B?

В 4-битной квантизации 70B помещается примерно в 40–48 ГБ VRAM — это конфигурация из двух RTX 4090 (48 ГБ суммарно). В полной точности потребуется A100/H100.

Что такое квантизация и теряется ли качество?

Квантизация — сжатие весов модели до 4–8 бит. Она кратно снижает требования к VRAM при минимальной, обычно незаметной для бизнес-задач потере качества.

Можно ли арендовать GPU-сервер под обучение модели?

Да. Для обучения требования к памяти выше, чем для инференса — подберём конфигурацию с несколькими картами или A100 по договору от 12 месяцев.

Какая видеокарта нужна для локального запуска LLM

От чего зависит объём VRAM

Таблица: модель → VRAM → видеокарта

Нужен GPU-сервер под вашу модель?

Какую модель выбрать под задачу

Почему локально, а не через облачный API

Частые вопросы

Смежные услуги

Аренда серверов

Colocation

Читайте также

Сколько стоит colocation в Москве и из чего складывается цена

Colocation, dedicated или облако: как выбрать и не переплатить

Как перенести серверы и 1С в дата-центр без простоя