Мы часто слышим, что для запуска моделей искусственного интеллекта локально нужна хорошая видеокарта. Но что это на самом деле означает? И действительно ли CPU настолько плох для ИИ? Ответ сложнее, чем кажется на первый взгляд.
Что происходит во время инференса ИИ?
Локальные большие языковые модели (LLM) или модели генерации изображений в основном выполняют одно и то же: умножение матриц.
Модель принимает входные данные, преобразует их в числа и прогоняет через миллиарды операций в слоях. Чем быстрее аппаратное обеспечение обрабатывает эти операции, тем быстрее вы получаете результат.
Важно: речь идёт именно об инференсе — генерации ответа на основе уже обученной модели. Мы не обучаем модель, а лишь выполняем вычисления, один токен за раз.
Как CPU справляется с задачами ИИ?
CPU исполняет инструкции операционной системы, браузера и других программ, а также может использоваться для запуска AI-моделей. Современные CPU имеют множество ядер (8–24, если говорить о потребительских чипах), каждое из которых мощное и гибкое.
Но проблема в том, что инференс ИИ требует выполнения одних и тех же операций параллельно. CPU могут выполнять часть операций параллельно с помощью SIMD-инструкций (AVX, AVX-512), но их архитектура не оптимальна для массовых параллельных вычислений, на которых строится инференс ИИ.
Тем не менее, CPU далеко не бесполезен. Например, инструменты вроде llama.cpp оптимизированы для CPU-инференса. Если модель помещается в системную RAM, её можно запускать на CPU, хотя иногда это будет заметно медленнее, чем на GPU.
Как GPU ускоряет инференс?
GPU ориентированы на параллельные вычисления. Если CPU предлагает десятки ядер, современные GPU оснащены тысячами, работающих одновременно над частями одной задачи. Идеально для «массивной математики», на которой построены модели ИИ.
Кроме того, GPU имеют собственную видеопамять (VRAM) с гораздо более высокой пропускной способностью, чем системная RAM. Высокая пропускная способность критически важна: она определяет, насколько быстро данные поступают к ядрам.
Для локального инференса LLM преимущество GPU сводится к двум факторам: параллельная вычислительная мощность и пропускная способность памяти. Оба напрямую влияют на скорость генерации токенов.
Пропускная способность памяти важнее, чем вычислительная мощность
При инференсе LLM ограничивающим фактором часто является не вычислительная мощность, а скорость передачи данных из памяти.
Если память не успевает «питать» процессор данными, все ядра простаивают. Для сравнения: системная DDR5-память обеспечивает пропускную способность 50–90 Гбайт/с, а современные GPU вроде RTX 5090 — более 1000 Гбайт/с. Если модель помещается в VRAM, GPU почти всегда выигрывает в плане скорости.
Когда CPU может быть лучше?
GPU — не всегда оптимальный выбор. CPU предпочтителен, если:
- Модель небольшая (до 3 млрд параметров).
- Нет совместимого GPU или VRAM недостаточно для модели.
- Используется ноутбук, где важна энергоэффективность.
Современный CPU-инференс ускоряется благодаря квантизации (уменьшение точности чисел, используемых в модели ИИ) и специализированным фреймворкам. Например, квантизированная модель с 7 млрд параметров на современной машине с мощным CPU и 32 Гбайт RAM работает достаточно быстро.
Частичное распределение нагрузки
Если модель не помещается в VRAM, можно использовать частичное распределение: часть слоёв работает на GPU, остальное — на CPU.
Это компромисс: GPU ускоряет часть работы, но CPU-слои становятся узким местом. Если в VRAM помещается меньше половины модели, проще запускать всё на CPU.
NVIDIA против AMD для локального ИИ
Сегодня NVIDIA лидирует в локальном ИИ благодаря CUDA — собственной платформе для вычислений, на которой построены большинство инструментов.
AMD постепенно догоняет: её платформа ROCm и поддержка некоторых приложений, таких как Ollama, предлагают неплохие возможности, но в целом экосистема пока остаётся менее развитой.
Если вы покупаете GPU именно для локального ИИ, целесообразно выбрать продукт от NVIDIA. Если уже есть AMD, можно попробовать, но стоит проверить совместимость с инструментами.
Теперь следить за нашими публикациями можно в Google Новостях, а прямую речь главреда, комментарии и самое интересное за день вы найдете в Telegram.


