Microsoft представила Rho-alpha — свою первую робототехническую модель, созданную на базе серии Phi, объединяющей компьютерное зрение и обработку естественного языка. Новый подход призван решить одну из ключевых проблем современной робототехники: неспособность роботов эффективно работать за пределами строго контролируемых промышленных сред.
В Microsoft отмечают, что большинство существующих роботов по-прежнему зависят от жёстко прописанных сценариев и заранее заданных условий, что ограничивает их применение вне сборочных линий. Rho-alpha, напротив, ориентирована на работу в динамичной среде, где системе необходимо адаптироваться к изменяющимся обстоятельствам.
Проект связан с развитием направления, которое в индустрии всё чаще называют «физическим ИИ» — подхода, при котором программные модели не просто анализируют данные, а непосредственно управляют действиями машин в реальном мире. Rho-alpha объединяет язык, восприятие и действие, позволяя трансформировать команды на естественном языке в сигналы для роботов.
Особое внимание в модели уделено задачам бимануальной манипуляции — операциям, требующим скоординированной работы двух роботизированных рук и высокой точности движений. Microsoft подчёркивает, что система расширяет классические подходы vision-language-action (VLA), увеличивая объём воспринимаемых данных и улучшая способности к обучению.
По словам вице-президента и управляющего директора Microsoft Research Accelerator, появление VLA-моделей позволяет физическим системам всё более автономно воспринимать окружающую среду, рассуждать и действовать рядом с людьми в условиях, далёких от лабораторных или заводских.
Источник: TechRadar
Теперь следить за нашими публикациями можно в Telegram и Google Новостях.
