12 марта Google DeepMind анонсировали свою новую vision-language-action (VLA) модель Gemini Robotics на основе языковой модели Gemini 2.0.
VLA (Vision-Language-Action) — это архитектурный подход для создания систем, оперирующих в реальном мире, объединяющий компьютерное зрение, языковую модель и модель физического управления. Первая часть модели (vision) распознает изображение с камер и других сенсоров, вторая (language) позволяет воспринимать команды пользователя и выстраивать стратегию действий. И последняя (action) формирует команды для актуаторов.
Команда проекта заявляет, что модель будет легко адаптировать к разным типам роботов, но обучение производилось в основном на базе двурукой платформы ALOHA-2. Также была продемонстрирована версия, адаптированная для манипуляторов Franka, популярных в промышленности и академических лабораториях.
Для проекта была разработана продвинутая vision-language модель под названием Gemini Robotics-ER (сокращение от «embodied reasoning»). Эта модель расширяет способности Gemini к пониманию окружающего мира в аспектах, критически важных для робототехники, с особым акцентом на пространственное мышление.
Gemini Robotics-ER значительно улучшает уже имеющиеся функции Gemini 2.0, такие как указание объектов (pointing) и трёхмерное распознавание (3D detection). Объединяя пространственное мышление с навыками программирования, модель может динамически порождать новые способности. Например, при демонстрации кофейной кружки модель определяет оптимальный двухпальцевый захват и безопасную траекторию подхода к объекту.
В подробной статье, которую опубликовал Google DeepMind и команда Gemini Robotics, можно ознакомиться со всеми техническими деталями.
Наряду с активным развитием VLA-моделей в течение последнего года-двух, появляются подходы и с фундаментально другими архитектурами, не использующими языковые модели. К примеру, фреймворк Thousand Brains Project, о котором есть подробная публикация на Хабре.
Источник: habr.com