Microsoft Research представила Magma, новую модель ИИ, способную понимать и взаимодействовать как с программным обеспечением, так и с физическими роботами. В отличие от предыдущих систем, Magma не просто анализирует изображения и текст — она может выполнять действия, такие как навигация по приложениям или управление роботизированными руками.
Разработанная в сотрудничестве с несколькими университетами, Magma объединяет визуальную и языковую обработку в единую систему.
Magma представляет две ключевые функции: Set-of-Mark, которая определяет объекты, с которыми она может взаимодействовать (например, кнопки или инструменты), и Trace-of-Mark, которая помогает ей изучать шаблоны движений.
Первые тесты показывают, что Magma демонстрирует хорошие результаты в бенчмарках, даже превосходя GPT-4V OpenAI в некоторых областях. Однако Microsoft признает, что ИИ все еще не справляется со сложными многоэтапными задачами. Компания планирует опубликовать код Magma на GitHub, чтобы исследователи могли глубже изучить его потенциал.
Источник: www.ferra.ru