Google DeepMind представила SIMA 2 и прямо называет его «значимым шагом в сторону AGI». Новый агент на базе языковой модели Gemini 2.5 Flash Lite видит видеопоток с экрана, использует виртуальную клавиатуру и мышь, понимает сложные инструкции и способен самостоятельно осваивать 3D-игры. По словам компании, это уже не просто модель, которая «говорит», а система, которая действует, рассуждает и учится в живых виртуальных средах.
Первый SIMA был ограничен набором из сотен коротких команд — он умел открывать двери, поворачивать камеру и выполнять простые действия. SIMA 2 — это качественно другой уровень. Агент понимает цели, разбивает их на подзадачи, строит планы и комментирует свои действия. Он уверенно работает в разных жанрах — от Valheim и Goat Simulator 3 до No Man’s Sky и Kerbal Space Program, — а главное, переносит освоенные навыки в новые игры, которых никогда раньше не видел.
Чтобы добиться этого, DeepMind использует гибридный учебный цикл. На старте SIMA 2 обучают на демонстрациях людей — видеозаписях игрового процесса с описанием действий. Затем включается самообучение: агент ставит себе задачи, пробует решения, анализирует ошибки и улучшает свои стратегии. Этот цикл повторяется поколения за поколением — и каждое новое поколение обучается уже на данных, собранных предыдущими агентами.
Отдельный шаг — интеграция с Genie 3. Это модель, которая умеет генерировать интерактивные 3D-миры на лету. SIMA 2 тестировали в этих полностью новых средах, и агент демонстрировал в них те же навыки навигации, планирования и поиска решений — даже без заранее прописанных правил. DeepMind рассматривает такие комбинации как фундамент для будущих систем уровня AGI, способных учиться в бесконечном пространстве задач.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com