Ричард Саттон — один из основателей обучения с подкреплением, лауреат премии Тьюринга — заявил, что индустрия ИИ потеряла ориентиры.
«ИИ стал гигантской индустрией, и в каком‑то смысле он сбился с пути», — пишет Саттон. По его словам, последние достижения игнорируют фундаментальные принципы, необходимые для создания настоящего интеллекта.
Учёный призывает к «возврату на курс»: «Что нужно, чтобы снова выйти на дорогу к подлинному разуму? Нам нужны агенты, которые учатся непрерывно. Нам нужны модели мира и планирование. Нам нужны знания, которые можно постигать на высоком уровне. Нам нужно уметь учиться обобщать».
Саттон, работающий в Google DeepMind, присоединился к ряду исследователей, критикующих одержимость отрасли масштабированием LLM. Он убеждён: настоящий интеллект рождается из опыта — из взаимодействия агента с окружающей средой. Недавно вместе с Дэвидом Сильвером он опубликовал статью, где утверждает: ИИ должен учиться действием, а не просто поглощать бесконечные массивы текста.
По мнению Саттона, современные модели устроены противоположным образом: знания в них внедряются на этапе проектирования, а не рождаются в процессе познания. Он вновь ссылается на свою знаменитую «горькую истину»: в ИИ побеждают масштабируемые универсальные методы, а не искусственно сконструированные человеком знания.
Путь Саттона к сверхинтеллекту
Главная беда сегодняшних систем, по его словам, в том, что они не умеют учиться без остановки. Их преследует катастрофическое забывание: новое знание вытесняет старое и в итоге модель теряет способность к долговременному обучению.
Чтобы преодолеть это, Саттон предлагает архитектуру Oak (Options and Knowledge — «Опции и знание») — фреймворк для создания агентов, способных достичь сверхинтеллекта через опыт.
Oak строится на трёх принципах. Во‑первых, агент должен быть универсальным, без заранее заданного багажа знаний о мире. Во‑вторых, всё обучение должно происходить исключительно через опыт: наблюдение, действие, получение вознаграждения. В‑третьих, действует гипотеза вознаграждения: любую цель можно свести к максимизации простого сигнального отклика.
В центре Oak — самоподдерживающийся цикл: агент создаёт более высокоуровневые абстракции благодаря обратной связи. Те характеристики, что помогают планировать и решать задачи, становятся основой для ещё более абстрактного уровня знаний. Этот процесс открыт и теоретически бесконечен — ограничивает его лишь вычислительная мощность. И именно он, по мнению Саттона, может проложить дорогу к сверхразуму.
Но пока Oak остаётся мечтой. Всё упирается в отсутствие алгоритмов, которые позволили бы учиться непрерывно, стабильно и без потери накопленных знаний. Надёжное «вечное обучение» — вот недостающий фрагмент пазла, уверен учёный. Полную техническую лекцию Саттона можно посмотреть здесь.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш телеграм: BotHub AI News.
Источник: habr.com