Microsoft представила Maia 200 — ускоритель нового поколения, призванный радикально снизить стоимость генерации токенов и повысить эффективность работы крупных AI-моделей. Новинка стала самым производительным специализированным чипом, когда-либо созданным Microsoft, и уже используется в «облачной» инфраструктуре Azure.
Maia 200 производится по 3 нм техпроцессу TSMC и содержит более 140 миллиардов транзисторов. Ускоритель оснащён тензорными ядрами, оптимизированными под форматы FP4/FP8.
Одним из ключевых преимуществ Maia 200 стала переработанная система памяти. Ускоритель получил 216 Гбайт памяти HBM3e с пропускной способностью до 7 Тбайт/с, а также 272 Мбайт встроенной SRAM. В сочетании со специализированными механизмами передачи данных это позволяет поддерживать высокий темп генерации токенов даже для самых крупных языковых моделей.
Microsoft утверждает, что Maia 200 превосходит конкурентов по соотношению производительность/стоимость: в FP4 он в три раза быстрее Amazon Trainium третьего поколения, а в FP8 опережает TPU седьмого поколения от Google.
Кроме того, новый ускоритель демонстрирует на 30% более высокую производительность на доллар по сравнению с текущим поколением оборудования в дата-центрах компании.
Maia 200 стал частью ИИ-инфраструктуры Microsoft и будет использоваться для обслуживания сразу нескольких моделей, включая последние версии GPT-5.2 от OpenAI. Чипы также задействует команда Microsoft Superintelligence.
Maia 200 уже развернут в дата-центре Microsoft в центральной части США, рядом с городом Де-Мойн, а в ближайшее время ожидается запуск в Аризоне. Ускоритель совместим с платформой Azure. Известно, что Microsoft уже работает над будущими версиями ускорителей.
Теперь следить за нашими публикациями можно в Telegram и Google Новостях.

