Энтузиасты продемонстрировали работу модели с 400 млрд параметров на iPhone 17 Pro, то есть на устройстве, явно не предназначенном для таких нагрузок.
За впечатляющий технологический прорыв пришлось заплатить производительностью.
Обычно модели такого уровня требуют не менее 200 Гбайт оперативной памяти даже в сжатом виде (смартфон Apple оснащен лишь 12 Гбайт).
Ключевую роль сыграла архитектура Mixture of Experts, при которой задействуется только часть параметров модели для генерации каждого ответа. Вместо загрузки всей модели в память система использует накопитель устройства, передавая данные напрямую на GPU.
Однако за впечатляющий технологический прорыв пришлось заплатить производительностью. Скорость генерации составила всего около 0,6 токена в секунду. Это примерно одно слово каждые 1,5–2 секунды. В реальном использовании такой темп делает работу некомфортной.
Тем не менее сам факт запуска столь крупной модели на смартфоне открывает перспективы для развития локальных ИИ-решений. Среди преимуществ — полная конфиденциальность и возможность работы без подключения к интернету.
Источник: wccftech
Теперь следить за нашими публикациями можно в Google Новостях, а прямую речь главреда, комментарии и самое интересное за день вы найдете в Telegram.
