Группа исследователей из Окинавского института науки и технологий создала модель ИИ из нескольких нейронных сетей, вдохновлённую человеческим мозгом. Она предназначена для изучения концепций обучения ИИ, который сможет имитировать работу мозга.
Авторы разработки отметили, что черпали идеи из области психологии развития. «Мы пытались имитировать то, как младенцы изучают язык и развивают навыки речи», — отметила исследователь Прасанна Виджаярагхаван. Это обучение применили к стандартным нейросетям, которые связывали слова с визуальными образами.
Исследователи также использовали для обучения видеопоток с камеры GoPro, закреплённой на ребенке. Однако им нужно было решить ещё одну проблему, связанную с тем, что младенцы не просто связывают предметы со словами, а трогают вещи, манипулируют ими и т. д.
В итоге исследователи решили поместить свою модель в реального робота. Он представляет собой простую систему с рукой и захватом, которая может поднимать предметы и перемещать их. Зрение робота обеспечивает простая RGB-камера, передающая видео в разрешении 64×64 пикселей.
Его разместили перед белым столом с кубиками зелёного, жёлтого, красного, фиолетового и синего цветов. Задачей робота было манипулировать этими блоками в ответ на простые подсказки, такие как «переместить красный влево», «переместить синий вправо» или «положить красный на синий».
Самой сложной задачей для исследователей стало создание ИИ, который мог бы обрабатывать слова и движения подобно людям. Отправной точкой для команды была гипотеза о том, что мозг постоянно делает прогнозы о мире, а затем обновляет их на основе сенсорного ввода. Если гипотеза верна, то эта схема целенаправленного планирования управляет всеми действиями человека.
Также нейробиологи из Университета Пармы ранее обнаружили, что двигательные области мозга активизировались, когда участники их исследования выслушивали предложения, связанные с действиями. Чтобы воплотить это в роботе, команда использовала четыре нейронные сети, работающие в тесно взаимосвязанной системе. Первая отвечала за обработку визуальных данных, поступающих с камеры. Она была тесно интегрирована со второй нейросетью, которая обрабатывала проприорецепцию: все процессы, которые обеспечивали роботу осознание своего положения и движений тела. Эта нейросеть также создавала внутренние модели действий, необходимых для манипулирования блоками на столе. Обе нейросети были дополнительно подключены к модулям визуальной памяти и внимания, что позволило им надежно фокусироваться на выбранном объекте и отделять его от фона изображения. Третья нейросеть была относительно простой и обрабатывала язык, используя векторизованные представления предложений. Наконец, четвёртая работала как ассоциативный слой и предсказывала результат предыдущих трёх на каждом шаге. «Когда мы выполняем действие, нам не всегда нужно его вербализовать, но в какой-то момент эта вербализация происходит у нас в голове», — отметили исследователи. Созданный командой ИИ должен был делать именно это: бесшовно связывать язык, проприоцепцию, планирование действий и зрение.
Когда роботизированный мозг был запущен, учёные начали обучать его некоторым возможным комбинациям команд и последовательностям движений. Они ориентировались на работу профессора психологии Брендена Лейка. Он ранее представил набор компетенций, освоение которых позволит машинам учиться и думать как люди. Одной из них была композиционность: способность составлять или разделять целое на части, которые можно использовать повторно. Это потенциально позволит роботам обобщать полученные знания для новых задач и ситуаций. «Фаза композиционности — это когда дети учатся объединять слова для объяснения вещей. Они сначала изучают названия объектов, названия действий, но это всего лишь отдельные слова. Когда они познают концепцию композиционности, то способность к общению выходит на новый уровень», — объясняют исследователи.
Созданный командой робот, действительно, научился обобщать полученные знания для выполнения команд, которые он никогда раньше не слышал. Он распознавал названия действий, которые не выполнял до этого, а затем применял их на комбинациях кубиков. Он также мог объединять слова, чтобы, например, ставить синий кубик на красный.
Хотя обучение роботов извлечению понятий из языка уже проводилось, эти усилия были сосредоточены на том, чтобы заставить их понять, как слова используются для описания визуальных образов. Этот навык удалось развить, включив проприоцепцию и планирование действий, по сути добавив слой, который интегрировал чувство и движение в то, как робот воспринимал мир.
Исследователям предстоит преодолеть некоторые проблемы, в том числе ограниченного рабочего пространства. Кроме того, робот пока научился манипулировать лишь похожими объектами, а его словарный запас включал только названия цветов и действий. Наконец, роботу пришлось выучить около 80% всех возможных комбинаций существительных и глаголов, прежде чем он смог успешно обобщить оставшиеся 20%. Его производительность ухудшилась, когда эти соотношения упали до 60/40 и 40/60.
Возможно, что проблему поможет исправить наращивание вычислительной мощности. «Для этого исследования у нас был один графический процессор RTX 3090, поэтому с графическим процессором последнего поколения мы могли бы решить многие из возникших проблем», — утверждают исследователи. Они планируют масштабировать систему, применив для обучения ИИ гуманоидного робота с камерами в голове и двумя руками, а затем внедрить его в реальный мир.
Источник: habr.com