Новый эксперимент с Othello подтверждает гипотезу о модели мира для больших языковых моделей

Исследователи из Копенгагенского университета по-новому взглянули на гипотезу «мировой модели Othello», задавшись вопросом, могут ли LLM усвоить правила и структуру доски в Othello, просто анализируя последовательности ходов.

Гипотеза о модели мира Othello предполагает, что языковые модели, обученные только на последовательности ходов, могут сформировать внутреннюю модель игры, включая расположение фигур на доске и игровую механику, даже не видя правил или визуального представления. Теоретически эти модели должны быть способны предсказывать допустимые следующие ходы, основываясь исключительно на этой внутренней карте.

Идея о том, что генеративный ИИ может создавать модели мира, стала более популярной, особенно после Sora от OpenAI. Однако подобные идеи возникли гораздо раньше, в том числе при экспериментах с GPT-2, который пытались обучить внутренней модели Othello. Первые исследования имели свои ограничения, особенно в анализе действий моделей. Тем не менее, они продемонстрировали, что трансформеры способны выявлять структуру и правила даже из простых данных.

Это поставило под сомнение широко распространённое мнение о том, что большие языковые модели — это просто «стохастические попугаи», слепо подражающие шаблонам. Хотя эти ранние результаты не были полностью применимы к сегодняшним гораздо более крупным моделям и не устраняли все критические замечания, они подняли более глубокие вопросы о том, на что могут быть способны большие языковые модели.

Если гипотеза о модели мира Othello верна, это означает, что языковые модели могут понимать взаимосвязи и структуры гораздо лучше, чем обычно предполагают их критики.

Модели строят внутренние карты

В своём последнем исследовании команда из Копенгагена обучила семь различных языковых моделей — GPT-2, T5, Bart, Flan-T5, Mistral, LLaMA-2 и Qwen2.5 — предсказывать следующий ход в игре Othello. Они использовали два набора данных: один с примерно 140 000 реальных игр, а другой — с миллионами синтетических игр.

Ключевым отличием от более ранних работ является использование «инструментов выравнивания представлений». Они позволяют исследователям напрямую сравнивать внутренние «карты», которые каждая модель формирует на доске Othello. По словам команды, эти инструменты преодолевают ограничения, выявленные в предыдущих исследованиях, таких как OthelloGPT.

Результаты показывают, что модели не только учатся играть в Othello, но и развивают внутреннее представление о пространственной структуре доски, которое поразительно похоже на человеческое. Даже при разных архитектурах то, как эти модели «видят» доску, соответствует тому, что исследователи называют «высоким сходством».

Производительность модели зависела как от архитектуры, так и от размера набора данных. При обучении на реальных игровых данных большинство моделей достигали уровня ошибок ниже 6%. При обучении на синтетических данных уровень ошибок резко снижался по мере увеличения набора данных — примерно с 50% при 2000 играх до менее чем 0,1% при полном наборе.

Интересно, что такие модели, как Flan-T5 и LLaMA-2, которые были предварительно обучены на общем тексте, не всегда превосходили модели, не прошедшие предварительную языковую подготовку. Это говорит о том, что обучение модели мира на доске Othello на основе последовательностей ходов не зависит от предыдущего языкового опыта.

Последствия для исследований в области искусственного интеллекта

Исследование ставит под сомнение ключевое предположение некоторых критиков LLM: что мономодальные системы, обученные только на одном типе данных, например на тексте, не могут решать задачи, требующие понимания визуальной или пространственной информации. Поскольку игровое поле Othello по своей сути является визуальным, тот факт, что эти модели могут реконструировать его из необработанных последовательностей ходов, демонстрирует удивительную способность к абстрагированию.

Полученные результаты также решают давнюю проблему привязки символов в ИИ — вопрос о том, как абстрактные символы (например, «C3» в Othello) связываются с реальным значением. Здесь модели учатся ассоциировать такие символы, как «C3», с конкретными местами на доске и их пространственными отношениями, а не рассматривать их как универсальные маркеры.

Ифэй Юань и Андерс Сёгаард, авторы исследования, опубликованного на ICLR 2025, утверждают, что их работа предоставляет гораздо более убедительные доказательства гипотезы модели мира Othello, чем предыдущие исследования.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии