Обучение масштабных AI-моделей формирует резкие скачки энергопотребления, которые создают нагрузку на энергосети и трансформаторы. Чтобы справиться с этой проблемой, NVIDIA разработала новую архитектуру энергоснабжения в платформах GB300 NVL72, включающую механизмы сглаживания нагрузки и интеллектуальное управление питанием.
AI-обучение задействует тысячи GPU, работающих синхронно. Это вызывает:
- одновременные пики потребления при запуске и резкие спады при завершении задач
- энергетические резонансы, которые могут повредить оборудование
- дестабилизацию напряжения для других потребителей сети
Классическая архитектура ЦОДов не справляется с такими резкими изменениями.
GB300 NVL72 использует целый комплекс решений:
- Power Cap: ограничивает начальную подачу энергии, обеспечивая плавный старт.
- Energy Storage: накопители на электролитических конденсаторах заряжаются в периоды низкой нагрузки и отдают энергию в пики.
- Power Burn: специальный режим, обеспечивающий плавное снижение потребления при завершении задач.
- Алгоритмы сглаживания: программное обеспечение контролирует поведение системы в реальном времени.
В сравнении с предыдущим поколением GB200:
- пиковая нагрузка на сеть снижена на 30%
- скачки мощности почти полностью устранены
Эффект заметен на уровне отдельной стойки и всего ЦОДа. Ранее инфраструктура проектировалась под максимальные пики потребления. Теперь можно:
- уменьшить общее энергобюджетирование
- размещать больше стоек в пределах существующей мощности
- снизить затраты на электрическую инфраструктуру без ущерба для производительности