Прорыв в ИИ: NVIDIA ускорила работу LLM в 4 раза с помощью архитектуры Blackwell

Евгений

2 месяца назад

Компания NVIDIA заявила о значительном прорыве в ускорении работы крупных языковых моделей (LLM) благодаря архитектуре Blackwell. По данным официального блога компании, один вычислительный узел DGX B200, оснащённый восемью графическими процессорами на базе Blackwell, смог достичь впечатляющей скорости — 1000 токенов в секунду (TPS) при работе с языковой моделью Llama 4 Maverick от Meta, содержащей 400 миллиардов параметров.

Это достижение стало возможным благодаря совокупности аппаратных инноваций и программной оптимизации, включая внедрение технологии спекулятивной декодировки. Эта методика позволяет небольшой быстрой модели предсказывать несколько токенов вперёд, в то время как основная модель проверяет их параллельно, обеспечивая значительное ускорение без потери качества текста.

Компания также задействовала архитектуру EAGLE3 — программную платформу, разработанную специально для ускорения вывода LLM-моделей.

Использование фреймворка TensorRT-LLM в сочетании со спекулятивной декодировкой обеспечило прирост производительности в четыре раза, что делает архитектуру Blackwell одной из самых эффективных платформ для масштабируемого вывода LLM.

Источник: wccftech