96 ГБ VRAM в обычном корпусе: как собрать домашнюю LLM-машину на четырёх RTX 3090
Как собрать ПК на четырёх RTX 3090/3090 Ti для локального запуска LLM — выбор железа, охлаждение, подключение GPU через M.2 и реальные скорости инференса.

Локальный инференс больших моделей упирается в одно — видеопамять. Облачные лимиты раздражают, Mac Studio стоит как подержанный автомобиль, а серверное железо требует отдельной комнаты и трёхфазной розетки. Есть путь проще: четыре потребительских GPU в одном корпусе, 96 ГБ VRAM и никакого Франкенштейна на столе.
Почему именно RTX 3090, а не что-то новее
RTX 3090 и 3090 Ti — аномалия рынка. 24 ГБ VRAM при пропускной способности памяти 900–1000 ГБ/с — это быстрее, чем любое устройство с унифицированной памятью (Mac Studio, AMD Strix Halo) на момент сборки. Четыре таких карты дают 96 ГБ суммарно.
Дополнительные плюсы, которые решили выбор:
- Встают в обычную материнку без экзотических переходников и кастомных драйверов
- Поддерживают NVLink — теоретически можно ускорить инференс или использовать для обучения
- На вторичном рынке (Авито) цены ещё адекватные относительно скорости памяти
- Не ревут как реактивный двигатель в режиме инференса
Минус один: карты горячие. При стресс-тесте радиаторы нагреваются до состояния «руку жжёт». Это определяет всю логику охлаждения.
Список железа и логика выбора каждого компонента
Итоговая сборка:
| Компонент | Модель | |---|---| | Материнская плата | ASUS ROG STRIX X870E-E GAMING WIFI | | CPU | AMD Ryzen 9950X | | RAM | 192 ГБ (4×48 ГБ) Corsair Vengeance, 3600 МТ/с | | Охлаждение CPU | Arctic Liquid Freezer III 420 мм | | GPU ×4 | Gigabyte AORUS RTX 3090 XTREME WATERFORCE 24G + INNO3D RTX 3090 iCHILL X3 + Palit RTX 3090 Ti GameRock + ASUS ROG Strix LC RTX 3090 Ti | | БП | Thermaltake Toughpower i2000W | | Корпус | Fractal Design Meshify 2 XL | | Хранилище | 3× M.2 SSD + 3× HDD, суммарно >18 ТБ |
Материнская плата. X870E важна не только слотами PCIe, но и количеством M.2-слотов — их здесь 5. Это критично для подключения GPU через переходники (об этом ниже).
RAM 192 ГБ. Для MoE-моделей (Mixture of Experts — архитектура, где активна только часть весов) часть слоёв выгружается в оперативную память. 192 ГБ позволяют держать там большие куски модели без OOM. Скорость 3600 МТ/с — грустный компромисс платформы AM5 с таким объёмом.
БП на 2000 Вт. Четыре RTX 3090 под нагрузкой легко суммарно потребляют 1,5–2 кВт. Запас по мощности обязателен.
Корпус Meshify 2 XL. Ключевой выбор: именно в нём удалось разместить два дополнительных радиатора 240 мм сверху для СЖО видеокарт. Без подходящего корпуса вся затея рассыпается.
Как подключить 4 GPU, если на плате только 2 слота PCIe
Это главный технический вопрос сборки, и ответ неочевидный. На X870E-E физически два полноценных PCIe-слота. Четыре GPU туда не влезут — но есть M.2-слоты.
Существуют переходники M.2 → PCIe x4 (или x16 через реймпинг). Они позволяют воткнуть видеокарту в M.2-разъём, который изначально предназначен для SSD. Скорость такого подключения ниже, чем у нативного PCIe x16, но для инференса (в отличие от игр) это не критично — узкое место здесь пропускная способность видеопамяти, а не шина.
Схема подключения в данной сборке:
- 2 GPU — в нативные PCIe-слоты материнской платы
- 2 GPU — через переходники M.2 → PCIe в свободные M.2-слоты
При 5 M.2-слотах на плате и 3 занятых SSD остаётся ровно 2 свободных — под переходники.
Охлаждение: 16 вентиляторов и два радиатора сверху
Четыре горячих GPU в закрытом корпусе — это тепловая задача, которую нельзя решить «как-нибудь». Автор выбрал карты на СЖО (системе жидкостного охлаждения) — Gigabyte AORUS WATERFORCE и ASUS ROG Strix LC — именно потому, что их радиаторы можно вынести за пределы основного воздушного потока.
Два радиатора 240 мм от этих карт установлены сверху корпуса Meshify 2 XL. Это нестандартное, но рабочее решение: корпус физически позволяет такой монтаж.
Итоговая схема вентиляции:
- 5 вентиляторов на радиаторе CPU 420 мм (фронт, нагнетание)
- 2 вентилятора в середине корпуса за первой видеокартой
- 2 вентилятора на задней стенке (вытяжка)
- Вентиляторы на радиаторах СЖО видеокарт
Итого 16 вентиляторов. Боковая стенка корпуса закрывается штатно — никаких торчащих конструкций снаружи.
Как сборка собиралась поэтапно (и почему это важно)
Сборка шла в 4 этапа с февраля 2025 по апрель 2026 — и это не случайность, а разумная стратегия.
Февраль 2025: базовый ПК — 64 ГБ RAM, одна RTX 3090 Ti, БП 1300 Вт. Нормальная рабочая машина.
Апрель 2025: апгрейд RAM до 192 ГБ за 56 тыс. руб. — до волны дефицита. Уже здесь открылась возможность обучать модели на больших данных без OOM.
Апрель 2026: докупка двух GPU на СЖО с Авито — Gigabyte AORUS 3090 и ASUS ROG Strix LC 3090 Ti. Одновременно — установка двух радиаторов 240 мм сверху корпуса.
Тот же апрель: четвёртая карта — INNO3D RTX 3090 iCHILL X3. Выбрана именно она: длина ~32 см позволила с минимальным зазором вписаться в корпус.
Поэтапный подход позволил не вкладывать всё сразу и проверять каждый шаг на работоспособность.
Где ломается и что учесть до покупки
Скорость RAM. 3600 МТ/с при 192 ГБ на AM5 — это потолок стабильности для данного комплекта. Для MoE-моделей с выгрузкой слоёв в RAM это узкое место: скорость обмена CPU↔RAM влияет на итоговый токен/с.
Совместимость M.2-переходников. Не все M.2-слоты на плате физически поддерживают нужный режим PCIe. Нужно сверяться с мануалом материнской платы до покупки переходников.
Авито-лотерея. Карты на СЖО с пробегом — риск. Помпа могла стоять годами, термопаста засохла. Стоит закладывать бюджет на обслуживание.
Потребление 2 кВт. Обычная розетка в российских квартирах рассчитана на 16 А (≈3,5 кВт). Запас есть, но при одновременной нагрузке на CPU и все 4 GPU лучше иметь отдельную линию.
Инференс через llama.cpp на Windows 11 без WSL. Это единственная протестированная конфигурация в данной сборке. Под Linux поведение и скорости могут отличаться.
Что попробовать дальше
- Протестировать NVLink между парами карт и сравнить скорость инференса с и без него
- Сравнить llama.cpp с vLLM под WSL2 на той же сборке
- Попробовать MoE-модели (например, Mixtral или DeepSeek) с частичной выгрузкой слоёв в 192 ГБ RAM и замерить реальный токен/с
- Рассмотреть Opencode как инфраструктуру для локального агентного кодинга поверх этой машины