Из примерно 7000 языков мира лишь малая часть поддерживается современными ИИ-моделями. NVIDIA решила эту проблему, представив новый открытый набор данных Granary и две модели — Canary-1b-v2 и Parakeet-tdt-0.6b-v3, которые обеспечивают качественное распознавание и перевод речи для 25 европейских языков, включая хорватский, эстонский и мальтийский.
Модель Canary-1b-v2 с миллиардом параметров показывает высокую точность транскрипции и перевода, а модель Parakeet-tdt-0.6b-v3 обеспечивает высокую скорость обработки аудио.
Granary и новые модели созданы в сотрудничестве с исследователями Carnegie Mellon University и Fondazione Bruno Kessler. Для подготовки данных использовался инструмент NVIDIA NeMo, который позволяет автоматически обрабатывать и структурировать неразмеченные аудиоданные.
Granary существенно сокращает количество необходимого обучающего материала для достижения высокой точности распознавания и перевода, что особенно важно для языков с дефицитом размеченных данных.
Набор данных и модели уже доступны на платформе Hugging Face, а научная работа по Granary будет представлена на конференции Interspeech в августе 2025 года.