Boston Dynamics интегрировала ИИ Gemini в робота Spot

Робот, который не умел думать, теперь читает записки от руки

Робот читает рукописную записку, идет к обуви, раскладывает ее по местам, подбирает банки, складывает одежду в корзину. В финале берет поводок и выводит на прогулку собаку. Это не очередная фантазия разработчика — именно так Boston Dynamics показала результат интеграции языковой модели Gemini Robotics-ER 1.6 от Google DeepMind в своего четвероногого робота.

До этого момента Spot работал по скриптам. Инженеры заранее прописывали каждое действие: куда идти, что взять, как повернуть манипулятор. Стоило среде измениться, и робот терялся. Теперь схема другая: Spot видит обстановку камерами, языковая модель интерпретирует картинку и текстовую задачу, а затем самостоятельно выстраивает план действий.

Технически это называют VLA-архитектурой — vision-language-action. Проще говоря, три слоя: зрение, понимание языка и физическое действие. Модель не просто распознает объекты — она соображает, что с ними делать в конкретном контексте. Написано «убери обувь» — Spot сам решает, где она стоит, как к ней подойти и куда переложить.

Главная цель апгрейда — не домашние задачи, а промышленность. Spot уже работает на заводах, нефтехимических объектах и в дата-центрах. Там робот патрулирует территорию, считывает показания манометров, замечает лужи на полу, тепловые аномалии и открытые двери. С новой моделью он делает это без участия человека-оператора: сам фиксирует проблему, сам ее классифицирует, сам передает сигнал.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости