Физический ИИ — область, где сходятся робототехника и базовые модели, — стремительно набирает обороты. Крупнейшие компании, такие как Nvidia, Google и Meta, уже ведут исследования и экспериментируют с объединением больших языковых моделей (LLM) и роботов.
Свежая разработка Института искусственного интеллекта Аллена (Allen Institute for AI, Ai2) стремится потеснить Nvidia и Google в этой области. Речь идёт о MolmoAct 7B — новой открытой модели, способной «мыслить в пространстве». Она основана на открытом проекте Ai2 Molmo и работает с трёхмерным восприятием. Вместе с моделью разработчики публикуют и обучающие данные. Лицензия на MolmoAct — Apache 2.0, на датасеты — CC BY-4.0.
В Ai2 относят MolmoAct к классу action reasoning model — моделей, которые анализируют и выстраивают действия в физическом, трёхмерном пространстве. Иными словами, MolmoAct способна воспринимать окружающий мир, продумывать, как расположиться в нём и совершить действие.
«MolmoAct умеет рассуждать в 3D‑пространстве, в отличие от традиционных моделей VLA (vision‑language‑action), — пояснили в Ai2. — Большинство таких систем не думают о пространстве, но MolmoAct это умеет, что делает её более универсальной и эффективной с архитектурной точки зрения».
Понимание физического мира
Поскольку роботы действуют в реальном, осязаемом мире, в Ai2 утверждают: MolmoAct помогает им лучше воспринимать окружение и принимать более взвешенные решения о взаимодействии с ним.
«MolmoAct можно применять везде, где машине нужно анализировать физическую обстановку, — говорят разработчики. — Мы чаще всего думаем о бытовых сценариях, потому что именно там роботы сталкиваются с наибольшими трудностями: обстановка непостоянна, всё меняется. Но возможностей для применения — гораздо больше».
MolmoAct интерпретирует окружающий мир с помощью так называемых spatially grounded perception tokens — «пространственно привязанных токенов восприятия». Эти токены предварительно обучаются и извлекаются с помощью векторно‑квантованного вариационного автоэнкодера — модели, которая преобразует входные данные, например видео, в токены. В Ai2 отмечают, что, в отличие от VLA, их токены не являются текстовыми.
Это даёт MolmoAct способность улавливать пространственные связи и кодировать геометрические структуры, оценивая расстояния между объектами. Получив оценку дистанции, модель прогнозирует цепочку точек‑ориентиров в пространстве изображения — своего рода маршрут. После этого она начинает выдавать конкретные действия: опустить манипулятор на несколько сантиметров, вытянуть руку вперёд и т. п.
Исследователи Ai2 подчёркивают, что модель легко адаптируется к разным типам роботов — будь то механическая рука или гуманоид — и для этого требуется минимальная донастройка.
В тестах на бенчмарках MolmoAct 7B показала успех выполнения задач на уровне 72,1%, обойдя решения от Google, Microsoft и Nvidia.
Важный шаг вперёд
Исследование Ai2 стало очередным примером того, как разработчики всё активнее используют уникальные преимущества LLM и VLM — особенно на фоне стремительного прогресса в генеративном ИИ. Эксперты считают наработки Ai2 и других технологических компаний своеобразными кирпичиками, на которых будет строиться будущее.
Алан Ферн, профессор Инженерного колледжа Университета штата Орегон, в беседе с VentureBeat отметил, что работа Ai2 — это «естественный шаг в развитии VLM‑моделей для робототехники и пространственного мышления».
«Я бы не назвал это революцией, но это важный рывок вперёд в создании более совершенных моделей трёхмерного анализа и планирования действий, — сказал Ферн. — Их фокус на реальном понимании трёхмерной сцены, в отличие от упора на 2D, — заметный поворот в правильную сторону. Да, они улучшили показатели по сравнению с прежними моделями, но тесты всё же далеки от реальной сложности и выглядят скорее контролируемыми лабораторными задачками».
Учёный добавил, что, несмотря на необходимость доработки бенчмарков, он «с нетерпением ждёт возможности испытать новую модель на своих задачах по пространственному мышлению».
Сооснователь стартапа Gather AI Даниэль Матурана высоко оценил открытость проекта: «Это отличная новость, ведь разработка и обучение подобных моделей обходятся дорого. Теперь у академических лабораторий и даже у увлечённых энтузиастов появляется прочная база, на которой можно строить и дорабатывать свои решения».
Растущий интерес к физическому ИИ
Мечта о создании более «умных» или хотя бы пространственно ориентированных роботов живёт у разработчиков и учёных уже не одно десятилетие.
Но реальность такова, что создать машину, которая быстро обрабатывает увиденное, двигается и реагирует плавно, — задача непростая. До появления LLM инженерам приходилось прописывать каждое движение вручную. Это отнимало массу времени и лишало роботов гибкости. Теперь же методы на основе LLM позволяют роботам — или хотя бы механическим манипуляторам — самостоятельно определять следующий шаг, ориентируясь на объекты, с которыми они взаимодействуют.
Так, система SayCan от Google Research помогает роботу выстраивать цепочку действий для достижения цели, используя LLM. А проект OK‑Robot✶ от Meta✶ и Нью‑Йоркского университета применяет визуально‑языковые модели для планирования движений и манипуляций с предметами.
Компания Hugging Face выпустила настольного робота за 299 $ с целью демократизировать разработку в робототехнике. Nvidia, провозгласившая физический ИИ новой крупной тенденцией, представила несколько моделей для ускоренного обучения роботов, в том числе Cosmos‑Transfer1.
По словам Ферна из OSU, интерес к физическому ИИ растёт, даже несмотря на то, что демонстраций пока немного. Но задача достижения универсального физического интеллекта — когда роботу не нужно программировать каждое действие отдельно — постепенно становится реальнее.
«Сейчас обстановка сложнее: лёгких побед почти не осталось. Но зато крупные модели физического интеллекта всё ещё на ранней стадии, и у них огромный потенциал для быстрого прогресса. Именно это делает сферу такой захватывающей», — подчеркнул он.
✶ Meta — деятельность организации запрещена на территории Российской Федерации.✶ OK‑Robot — проект компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News.
Источник: habr.com