Подразделение Google DeepMind представила интеграцию своей большой языковой модели Gemini в универсального робота, предназначенного для помощи в офисе. Этот модернизированный робот, представленный в офисе компании в Маунтин-Вью, использует мультимодальные возможности Gemini для интерпретации текстовых и визуальных команд с большой точностью.
Обладая способностью обрабатывать видео и текст, Gemini позволяет роботу ориентироваться в сложных средах и выполнять задачи на основе инструкций на обычном языке. Например, когда роботу предлагается найти место для письма, он ловко находит и направляет пользователя к соответствующим местам, например к доске в офисе.
Согласно исследовательскому документу DeepMind, робот достигает 90 % точности в навигации по офисному пространству, отвечая даже на такие тонкие запросы, как поиск личных вещей.
Эта рзаработка подчеркивает расширение роли больших языковых моделей за пределы традиционных сайтов и приложений, прокладывая путь к созданию роботов на базе ИИ, способных к практическому и интуитивному взаимодействию в реальных условиях, пишут эксперты.
Источник: www.ferra.ru