Проект Deepgram, стартап NVIDIA Inception, разрабатывающий модели глубокого обучения с автоматическим распознаванием речи (ASR), недавно опубликовал демонстрацию работы системы на базе графических процессоров.
Создатели заявили, что их система распознавания речи обеспечивает максимально быструю и точную транскрипцию с высочайшим качеством на выходе. Демонстрация проводилась в облаке Amazon Web Services с ускорителями NVIDIA V100 на борту.
Машина позволила расшифровывать и перевести в текст сотни аудиофайлов за секунды. По словам Якоба Висоватти, инженера по решениям Deepgram, это стало возможно благодаря распараллеливанию вычислений.
Deepgram способна расшифровать 300 аудиофайлов за 300 миллисекунд (для этой цели достаточно одного графического ускорителя NVIDIA V100).
В итоге система смогла обработать более 212 файлов (около 10 часов аудио) за 40 секунд.