Guides· 5/30/2026· 5 мин чтения

96 ГБ VRAM в обычном корпусе: как собрать домашнюю LLM-машину на четырёх RTX 3090

Как собрать ПК на четырёх RTX 3090/3090 Ti для локального запуска LLM — выбор железа, охлаждение, подключение GPU через M.2 и реальные скорости инференса.

AI-assisted, edited by a human reviewer

Локальный инференс больших моделей упирается в одно — видеопамять. Облачные лимиты раздражают, Mac Studio стоит как подержанный автомобиль, а серверное железо требует отдельной комнаты и трёхфазной розетки. Есть путь проще: четыре потребительских GPU в одном корпусе, 96 ГБ VRAM и никакого Франкенштейна на столе.

Почему именно RTX 3090, а не что-то новее

RTX 3090 и 3090 Ti — аномалия рынка. 24 ГБ VRAM при пропускной способности памяти 900–1000 ГБ/с — это быстрее, чем любое устройство с унифицированной памятью (Mac Studio, AMD Strix Halo) на момент сборки. Четыре таких карты дают 96 ГБ суммарно.

Дополнительные плюсы, которые решили выбор:

Встают в обычную материнку без экзотических переходников и кастомных драйверов
Поддерживают NVLink — теоретически можно ускорить инференс или использовать для обучения
На вторичном рынке (Авито) цены ещё адекватные относительно скорости памяти
Не ревут как реактивный двигатель в режиме инференса

Минус один: карты горячие. При стресс-тесте радиаторы нагреваются до состояния «руку жжёт». Это определяет всю логику охлаждения.

Список железа и логика выбора каждого компонента

Итоговая сборка:

| Компонент | Модель | |---|---| | Материнская плата | ASUS ROG STRIX X870E-E GAMING WIFI | | CPU | AMD Ryzen 9950X | | RAM | 192 ГБ (4×48 ГБ) Corsair Vengeance, 3600 МТ/с | | Охлаждение CPU | Arctic Liquid Freezer III 420 мм | | GPU ×4 | Gigabyte AORUS RTX 3090 XTREME WATERFORCE 24G + INNO3D RTX 3090 iCHILL X3 + Palit RTX 3090 Ti GameRock + ASUS ROG Strix LC RTX 3090 Ti | | БП | Thermaltake Toughpower i2000W | | Корпус | Fractal Design Meshify 2 XL | | Хранилище | 3× M.2 SSD + 3× HDD, суммарно >18 ТБ |

Материнская плата. X870E важна не только слотами PCIe, но и количеством M.2-слотов — их здесь 5. Это критично для подключения GPU через переходники (об этом ниже).

RAM 192 ГБ. Для MoE-моделей (Mixture of Experts — архитектура, где активна только часть весов) часть слоёв выгружается в оперативную память. 192 ГБ позволяют держать там большие куски модели без OOM. Скорость 3600 МТ/с — грустный компромисс платформы AM5 с таким объёмом.

БП на 2000 Вт. Четыре RTX 3090 под нагрузкой легко суммарно потребляют 1,5–2 кВт. Запас по мощности обязателен.

Корпус Meshify 2 XL. Ключевой выбор: именно в нём удалось разместить два дополнительных радиатора 240 мм сверху для СЖО видеокарт. Без подходящего корпуса вся затея рассыпается.

Как подключить 4 GPU, если на плате только 2 слота PCIe

Это главный технический вопрос сборки, и ответ неочевидный. На X870E-E физически два полноценных PCIe-слота. Четыре GPU туда не влезут — но есть M.2-слоты.

Существуют переходники M.2 → PCIe x4 (или x16 через реймпинг). Они позволяют воткнуть видеокарту в M.2-разъём, который изначально предназначен для SSD. Скорость такого подключения ниже, чем у нативного PCIe x16, но для инференса (в отличие от игр) это не критично — узкое место здесь пропускная способность видеопамяти, а не шина.

Схема подключения в данной сборке:

2 GPU — в нативные PCIe-слоты материнской платы
2 GPU — через переходники M.2 → PCIe в свободные M.2-слоты

При 5 M.2-слотах на плате и 3 занятых SSD остаётся ровно 2 свободных — под переходники.

Охлаждение: 16 вентиляторов и два радиатора сверху

Четыре горячих GPU в закрытом корпусе — это тепловая задача, которую нельзя решить «как-нибудь». Автор выбрал карты на СЖО (системе жидкостного охлаждения) — Gigabyte AORUS WATERFORCE и ASUS ROG Strix LC — именно потому, что их радиаторы можно вынести за пределы основного воздушного потока.

Два радиатора 240 мм от этих карт установлены сверху корпуса Meshify 2 XL. Это нестандартное, но рабочее решение: корпус физически позволяет такой монтаж.

Итоговая схема вентиляции:

5 вентиляторов на радиаторе CPU 420 мм (фронт, нагнетание)
2 вентилятора в середине корпуса за первой видеокартой
2 вентилятора на задней стенке (вытяжка)
Вентиляторы на радиаторах СЖО видеокарт

Итого 16 вентиляторов. Боковая стенка корпуса закрывается штатно — никаких торчащих конструкций снаружи.

Как сборка собиралась поэтапно (и почему это важно)

Сборка шла в 4 этапа с февраля 2025 по апрель 2026 — и это не случайность, а разумная стратегия.

Февраль 2025: базовый ПК — 64 ГБ RAM, одна RTX 3090 Ti, БП 1300 Вт. Нормальная рабочая машина.

Апрель 2025: апгрейд RAM до 192 ГБ за 56 тыс. руб. — до волны дефицита. Уже здесь открылась возможность обучать модели на больших данных без OOM.

Апрель 2026: докупка двух GPU на СЖО с Авито — Gigabyte AORUS 3090 и ASUS ROG Strix LC 3090 Ti. Одновременно — установка двух радиаторов 240 мм сверху корпуса.

Тот же апрель: четвёртая карта — INNO3D RTX 3090 iCHILL X3. Выбрана именно она: длина ~32 см позволила с минимальным зазором вписаться в корпус.

Поэтапный подход позволил не вкладывать всё сразу и проверять каждый шаг на работоспособность.

Где ломается и что учесть до покупки

Скорость RAM. 3600 МТ/с при 192 ГБ на AM5 — это потолок стабильности для данного комплекта. Для MoE-моделей с выгрузкой слоёв в RAM это узкое место: скорость обмена CPU↔RAM влияет на итоговый токен/с.

Совместимость M.2-переходников. Не все M.2-слоты на плате физически поддерживают нужный режим PCIe. Нужно сверяться с мануалом материнской платы до покупки переходников.

Авито-лотерея. Карты на СЖО с пробегом — риск. Помпа могла стоять годами, термопаста засохла. Стоит закладывать бюджет на обслуживание.

Потребление 2 кВт. Обычная розетка в российских квартирах рассчитана на 16 А (≈3,5 кВт). Запас есть, но при одновременной нагрузке на CPU и все 4 GPU лучше иметь отдельную линию.

Инференс через llama.cpp на Windows 11 без WSL. Это единственная протестированная конфигурация в данной сборке. Под Linux поведение и скорости могут отличаться.

Что попробовать дальше

Протестировать NVLink между парами карт и сравнить скорость инференса с и без него
Сравнить llama.cpp с vLLM под WSL2 на той же сборке
Попробовать MoE-модели (например, Mixtral или DeepSeek) с частичной выгрузкой слоёв в 192 ГБ RAM и замерить реальный токен/с
Рассмотреть Opencode как инфраструктуру для локального агентного кодинга поверх этой машины

Источники

Habr AI: Как я собрал LLM-печку на 4 GPU, и на что она способна