DeepMind планирует наделить роботов «внутренним голосом»

Google DeepMind разрабатывает систему, которая обеспечит ИИ-агентов «внутренним голосом», чтобы помочь им более эффективно изучать задачи и в итоге стать «умнее».

В патентной заявке лаборатория описала метод под названием «Внутриагентная речь для облегчения обучения задачам», где роботы наблюдают за задачами через изображения или видео, а затем генерируют их описания на естественном языке.

По словам исследователей, такой «внутренний монолог» помогает связать визуальный ввод с действиями, позволяя агентам понимать и взаимодействовать с незнакомыми объектами без предварительного обучения, а также снижая требования к памяти и вычислениям.

Например, робот может смотреть видео, на котором кто-то поднимает чашку, одновременно внутренне обрабатывая фразу «человек поднимает чашку». Это позволит агенту «вспоминать» правильные действия, которые следует предпринять при столкновении с похожими объектами. В итоге робот сможет принимать более обоснованные решения и эффективнее адаптироваться к новым ситуациям в динамичных реальных средах.

Техника поддерживает так называемое обучение «с нуля», то есть робот сможет выполнять задачи, связанные с незнакомыми объектами, без предварительного обучения. DeepMind отмечает, что такой подход снизит требования к памяти и вычислительной мощности, необходимым для обучения роботизированных систем.

Инициатива основана на более широких усилиях DeepMind в области робототехники. В июне компания представила «Gemini Robotics On-Device», которая предназначена для работы без доступа к облаку. Google утверждает, что модель компактна и достаточно эффективна, чтобы работать непосредственно внутри робота.

Gemini Robotics On-Device — это версия модели Gemini Robotics Vision-Language, созданная для работы с роботами и без Интернета. Разработанная для чувствительных к задержкам или автономных сред, она работает локально, что позволяет роботам быстро реагировать на меняющиеся условия и сохранять конфиденциальность данных.

Gemini Robotics On-Device способна выполнять задачи из коробки и может адаптироваться к новым всего за 50–100 демонстраций. Разработчики Google позиционируют её как «стартовую модель». Первоначально обученный на роботе ALOHA от Google, ИИ был адаптирован к другим, таким как гуманоид Apollo от Apptronik и Franka FR3. Модель обрабатывает сложные действия, такие как складывание одежды или расстёгивание сумок.

Разработчики могут настраивать модель, дистанционно управляя роботом, чтобы изучать новые задачи. Она поддерживает моделирование с помощью динамики Multi-Joint с физическим движком Contact или развёртывание в физических средах. Однако, в отличие от гибридного аналога, версия на устройстве не имеет встроенных семантических систем безопасности. Google советует разработчикам внедрять собственные протоколы безопасности и на данный момент ограничила доступ к ИИ для оценки реальных рисков безопасности.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”