NVIDIA анонсировала новое программное решение для мониторинга больших парков GPU. Сервис нацелен на «облачных» провайдеров и корпоративные дата-центры, обеспечивая прозрачность работы графических процессоров, повышение их доступности и эффективности.
Основные функции нового решения:
- Отслеживание загрузки GPU.
- Контроль энергопотребления: позволяет выявлять пики нагрузки и оптимизировать производительность.
- Раннее обнаружение проблем с охлаждением: контроль температуры и потоков воздуха предотвращает троттлинг и преждевременный износ компонентов.
- Проверка программных конфигураций: гарантирует стабильность настроек.
- Выявление ошибок и аномалий: помогает оперативно определять проблемные узлы.
Сервис с открытым исходным кодом устанавливается на стороне клиента. Он собирает и передает данные на портал NVIDIA NGC, где можно визуализировать состояние парка графических процессоров как глобально, так и по отдельным зонам.
Особенности и преимущества:
- Данные только для чтения, управление остается на стороне клиента.
- Возможность создавать отчеты с подробной информацией о GPU-инфраструктуре.
- Поддержка открытого исходного кода обеспечивает прозрачность и возможность интеграции с решениями клиентов.
- Не вмешивается в настройки или работу GPU.

