Локальные большие языковые модели (LLM) превратились в полноценный рабочий инструмент для миллионов пользователей по всему миру. Сегодня на домашнем ПК можно запускать модели, способные писать код, генерировать тексты и решать сложные логические задачи без подключения к «облаку». Однако память (и RAM, и VRAM) является главным ограничением. Причём речь идёт не только об объёме, но и о скорости работы. Современные модели постоянно обращаются к весам во время генерации текста, поэтому производительность системы напрямую зависит от пропускной способности RAM и VRAM.
Комфорт — это 16 Гбайт DDR5 для запуска 8–14B моделей.
Если памяти недостаточно, модель либо вообще не запускается, либо начинает выгружать часть данных на SSD, из-за этого скорость падает в разы.
Но даже когда модель полностью помещается в память, генерация токенов всё равно часто оказывается ограничена пропускной способностью памяти, а не мощностью процессора. Именно поэтому DDR5 и быстрые GPU сегодня играют важнейшую роль в локальном AI.
Почему локальные LLM так требовательны к памяти?
Во время инференса языковая модель полностью загружается в память и остаётся там во время работы. В отличие от игр или монтажа видео, где данные динамически подгружаются по мере необходимости, LLM постоянно используют весь набор параметров.
Каждый новый токен требует повторного обращения к весам модели. Даже переход от DDR5-4800 к DDR5-6000 может ускорить генерацию текста на 20-23%.
Двухканальный режим работы памяти обязателен. Для локальных LLM это зачастую важнее, чем разница между двумя процессорами.
RAM против VRAM
Современные видеокарты уровня RTX 4090 и RTX 5090 обеспечивают более 1 Тбайт/с пропускной способности памяти, тогда как обычная DDR5 в настольных системах предлагает лишь 70–90 Гбайт/с.
На практике это означает разницу между:
- 40–60 токенами в секунду на GPU
- 8–15 токенами на CPU
Проблема в том, что даже топовые потребительские видеокарты обычно ограничены 24–32 Гбайт VRAM. Этого достаточно для моделей класса 7B–32B, но 70B-модели требуют либо нескольких GPU, либо огромного объёма RAM.
Квантование сделало локальный ИИ массовым
Современные локальные модели практически всегда запускаются в квантованном формате. Наиболее популярный вариант — Q4_K_M.
Квантование уменьшает размер модели примерно в четыре раза, сохраняя качество. Без квантования запуск большинства современных LLM дома был бы невозможен.
Сколько памяти нужно популярным LLM?
Сегодня рынок локальных моделей разделился на несколько классов: от компактных 4B-систем до гигантов уровня 120B.
- Одной из самых лёгких моделей остаётся Phi-4 Mini с 3,8 млрд параметров. В Q4_K_M она занимает примерно 2,3 Гбайт памяти и работает практически на любом современном ноутбуке. Несмотря на небольшой размер, модель отлично подходит для базовых локальных AI-задач.
- Qwen 3.5 4B требует около 3,4 Гбайт памяти и считается одной из лучших компактных моделей 2026 года. Она особенно хороша для повседневной работы с текстом.
- Сегмент 8B фактически стал стандартом локального ИИ. Llama 3.2 8B занимает около 5 Гбайт и остаётся одной из самых универсальных моделей для текста, кода и чат-интерфейсов. Примерно столько же требует Qwen 3 8B.
- Qwen 3.5 9B стала логичным развитием компактных моделей. При размере около 6,6 Гбайт она лучше удерживает длинный контекст и демонстрирует более стабильную генерацию.
- В среднем сегменте огромную популярность получили DeepSeek-R1-Distill 14B и Gemma 3 12B. DeepSeek требует около 9 Гбайт памяти. Gemma 3 12B занимает примерно 8 Гбайт и делает ставку на эффективность и стабильность вывода.
- Одним из самых интересных трендов последних лет стали MoE-модели (Mixture of Experts). Их особенность заключается в том, что при генерации токена используется только часть параметров модели.
- Llama 4 Scout — это отличный пример такой архитектуры. Несмотря на общий объём в 109B параметров, одновременно активны лишь 17B. Благодаря этому модель занимает около 10 Гбайт при агрессивном квантовании и работает значительно эффективнее классических моделей аналогичного уровня.
- Qwen 3.5 27B требует около 17 Гбайт памяти и считается одной из лучших универсальных моделей для GPU с 24 Гбайт VRAM. Она обеспечивает почти «профессиональный» уровень качества и хорошо справляется со сложными задачами.
- Qwen 3 32B занимает примерно 20 Гбайт и уже приближается по возможностям к «облачным» LLM. Это один из самых интересных вариантов для владельцев видеокарт RTX 4090 или RTX 5090.
- Ещё более любопытно выглядит Qwen 3.5 35B-A3B. Формально модель содержит 35 миллиардов параметров, но при генерации активирует только 3B. Благодаря этому она требует около 24 Гбайт памяти и остаётся крайне эффективной для своего уровня.
- Сегмент 70B-моделей уже требует действительно серьёзного «железа». Llama 3.3 70B и DeepSeek-R1-Distill 70B занимают примерно по 42 Гбайт памяти даже после квантования.
- Отдельного внимания заслуживает GPT-OSS 120B — одна из крупнейших моделей нового поколения. Даже в Q4 она требует около 63 Гбайт памяти. Для её запуска уже необходимы рабочие станции с большим объёмом RAM.
- Флагманская Qwen 3.5 122B-A10B представляет собой ещё более экстремальный пример MoE-подхода. Несмотря на наличие 122B параметров, одновременно работают лишь 10B. Тем не менее модель требует около 81 Гбайт памяти и ориентирована скорее на профессиональные AI-станции, чем на обычные ПК.
Если говорить о реальном опыте использования локальных LLM, то 8 Гбайт памяти сегодня хватает только для самых компактных моделей. Комфорт — это 16 Гбайт DDR5 для запуска 8–14B моделей.
Идеально, если в вашей системе 32 Гбайт ОЗУ. А вот 64 Гбайт и выше нужны тем, кто хочет работать с 70B-моделями, GPT-OSS или большими MoE-системами.
Прямую речь главреда, комментарии и самое интересное за день вы найдете в нашем Telegram-канале.
