GPU и AI

Какая видеокарта нужна для локального запуска LLM

Запустить языковую модель на своём сервере реально и часто дешевле облачных API. Главный вопрос — сколько нужно видеопамяти. Разбираем на популярных моделях: сколько VRAM требует каждая и какая видеокарта подойдёт.

Локальный запуск LLM даёт три вещи, которых нет у облачных API: приватность данных, фиксированную цену и отсутствие лимитов. Но чтобы модель просто загрузилась, нужна видеокарта с достаточным объёмом памяти (VRAM). Разберём, сколько её нужно и как сэкономить квантизацией.

От чего зависит объём VRAM

Память под инференс (запуск готовой модели) складывается из двух частей: веса модели + контекст (KV-кэш). Грубая оценка весов:

  • fp16 (полная точность): ~2 ГБ на каждый миллиард параметров. Модель 7B ≈ 14 ГБ только весов.
  • 4-bit (квантизация): ~0,6 ГБ на миллиард. Та же 7B ≈ 4–5 ГБ. Плюс запас на контекст.

Квантизация — сжатие весов до 4–8 бит. Она кратно снижает требования к VRAM при минимальной потере качества, поэтому для локального инференса это стандарт. Именно она позволяет запустить 70B-модель на паре RTX 4090.

Таблица: модель → VRAM → видеокарта

Ориентир для инференса популярных открытых моделей. Для обучения (fine-tuning) требования в разы выше.

Модель (размер)VRAM: 4-bit / fp16Видеокарта
7–8B — Qwen2.5-7B, Llama 3 8B, Mistral 7B~6–8 / ~16 ГБRTX 3090 или 4090 (24 ГБ)
14B — Qwen2.5-14B, DeepSeek-R1 14B~10–12 / ~28 ГБRTX 4090 (24 ГБ)
32B — Qwen2.5-32B, DeepSeek 32B~20 / ~64 ГБRTX 4090 (4-bit) или 2×4090
70B — Llama 3 70B, Qwen2.5-72B~40–48 / ~140 ГБ2×RTX 4090 (48 ГБ)
100B+ — DeepSeek-V3 и крупнее80+ ГБA100 / H100 (под задачу)

Значения приблизительные и зависят от длины контекста и движка (llama.cpp, vLLM, TGI). С запасом на контекст берите на ступень выше.

Нужен GPU-сервер под вашу модель?

Подберём видеокарту под конкретную LLM и нагрузку — RTX 3090, RTX 4090, мульти-GPU или A100. Данные не покидают РФ.

Какую модель выбрать под задачу

  • Чат-бот, ассистент, обработка документов: 7–14B обычно достаточно, работает на одной RTX 4090.
  • Качественные рассуждения, код, сложные задачи: 32–70B заметно умнее, нужна 4090 в квантизации или 2×4090.
  • Максимальное качество: 100B+ и топовые модели — конфигурация с A100/H100.

Для большинства бизнес-задач (внутренний ассистент, поиск по документам, автоматизация) хватает модели 14–32B на одной-двух картах — это и есть «сладкая точка» цена/качество.

Почему локально, а не через облачный API

При постоянной нагрузке свой GPU-сервер окупается: вы платите фиксированную сумму в месяц вместо оплаты за каждый токен, данные остаются в России (важно для 152-ФЗ), нет лимитов и очередей. Если сервер нужен ещё и под обычные задачи — посмотрите аренду выделенных серверов.

Частые вопросы

Какая видеокарта нужна для Llama 3 70B?

В 4-битной квантизации 70B помещается примерно в 40–48 ГБ VRAM — это конфигурация из двух RTX 4090 (48 ГБ суммарно). В полной точности потребуется A100/H100.

Что такое квантизация и теряется ли качество?

Квантизация — сжатие весов модели до 4–8 бит. Она кратно снижает требования к VRAM при минимальной, обычно незаметной для бизнес-задач потере качества.

Можно ли арендовать GPU-сервер под обучение модели?

Да. Для обучения требования к памяти выше, чем для инференса — подберём конфигурацию с несколькими картами или A100 по договору от 12 месяцев.

Смежные услуги

Читайте также

Позвонить Оставить заявку