Архитектура NVIDIA Blackwell стала ключевой в области искусственного интеллекта (ИИ). Несмотря на то, что многие воспринимают Blackwell как отдельный чип, на самом деле это комплексная система, создающая фундамент для масштабных AI-инфраструктур — ИИ-фабрик, способных обучать и запускать самые сложные модели.
Вызовы и масштабы современного ИИ
Современные передовые AI-модели содержат сотни миллиардов параметров и обслуживают почти миллиард пользователей еженедельно. Следующее поколение моделей будет иметь уже триллионы параметров, обучаясь на десятках триллионов текстовых, графических и видео данных.
Чтобы справиться с такой нагрузкой, дата-центры объединяют тысячи вычислительных узлов. Однако гораздо эффективнее масштабировать вычислительные мощности внутри одного суперкомпьютера — и именно это предлагает архитектура Blackwell.
Суперчип NVIDIA Grace Blackwell
Суперчип NVIDIA Grace Blackwell — это уникальное сочетание двух GPU Blackwell и процессора NVIDIA Grace, объединённых через высокоскоростное соединение NVLink.
Инновационный интерконнект — основа масштабирования
Для соединения сотен тысяч GPU внутри дата-центров NVIDIA создала сеть NVLink Switch spine — сложнейшую систему из более чем 5000 медных кабелей.
GB200 NVL72 — один гигантский виртуальный GPU
Каждый стоечный кластер GB200 NVL72 весит полторы тонны и состоит из 600 тысяч компонентов и миллионов строк кода. Вместе они работают как один гигантский виртуальный GPU, способный выполнять AI-инференс на промышленном уровне.
Масштабирование и унификация
NVIDIA позволяет партнёрам самостоятельно собирать системы NVL72 — по всему миру работает свыше 150 заводов и 200 технологических компаний, производящих эти суперкомпьютеры. Десятки тысяч таких систем объединяются с помощью коммутаторов Spectrum-X Ethernet и Quantum-X800 InfiniBand, создавая единый глобальный AI-суперкомпьютер.
Операционная система ИИ-фабрик — NVIDIA Dynamo
NVIDIA Dynamo управляет распределением и оптимизацией запросов на тысячи GPU, обеспечивая максимальную производительность при минимальных затратах. Она динамически перераспределяет ресурсы в зависимости от нагрузки, направляя задачи на наиболее подходящие вычислительные узлы.
Пример масштаба — суперкомпьютер Colossus
Впечатляющим примером является Colossus — суперкомпьютер, построенный xAI всего за 122 дня. В нем задействовано более 200 тысяч GPU NVIDIA. Он демонстрирует возможности масштабирования и интеграции, заложенные в архитектуре Blackwell.
Blackwell — не просто чип, а движущая сила ИИ-фабрик, задающих темп для крупнейших вычислительных кластеров в мире. Еженедельно производится около тысячи стоек GB300, что подчеркивает растущий спрос и влияние этой технологии на будущее искусственного интеллекта.