Исследование Pfizer о причинах трудностей больших языковых моделей при решении задач

Новый комментарий исследователей из Pfizer ставит под сомнение основные выводы исследования «Иллюзия мышления», соавторами которого являются учёные из Apple.

В статье, написанной Apple, утверждается, что это внезапное снижение производительности указывает на фундаментальный предел возможностей машинного мышления. Другие исследования показали аналогичные результаты, но не называют это жёстким ограничением.

Команда Pfizer также не согласна с интерпретацией Apple. Они утверждают, что снижение производительности вызвано не когнитивным барьером, а искусственными условиями тестирования. Если заставлять модели работать только в текстовой среде — без таких инструментов, как интерфейсы программирования, — сложные задачи становятся намного труднее, чем необходимо. То, что кажется проблемой мышления, на самом деле является проблемой выполнения.

Почему для LRM некоторые задачи вызывают трудности?

В оригинальном исследовании такие модели, как Claude 3.7 Sonnet-Thinking и Deepseek-R1, тестировались на текстовых головоломках — «Ханойская башня» или «Переправа через реку». По мере усложнения головоломок точность моделей резко снижалась — это явление в исследовании назвали «обрывом рассуждений».

Команда Pfizer указывает на нереалистичные ограничения теста: модели не могли использовать внешние инструменты и должны были отслеживать всё в виде обычного текста. Это не выявило ошибок в рассуждениях, но сделало практически невозможным для моделей выполнение длительных и точных шагов по решению задач.

В качестве примера исследователи из Pfizer рассмотрели модель o4-mini. Без доступа к инструментам она объявила решаемую головоломку «Переправа через реку» неразрешимой, вероятно, потому, что не могла вспомнить предыдущие шаги. Это ограничение памяти — хорошо известная проблема современных языковых моделей, которая также описана в исследовании Apple.

Компания Pfizer называет это «выученной беспомощностью»: когда LRM не может идеально выполнить длинную последовательность действий, он может ошибочно решить, что задача невыполнима.

В исследовании Apple также не учитывалась «кумулятивная ошибка». В задачах с тысячами шагов вероятность безупречного выполнения снижается с каждым шагом. Даже если модель на 99,99% точна на каждом шаге, вероятность решения сложной головоломки «Ханойская башня» без ошибок составляет менее 45%. Таким образом, наблюдаемое снижение производительности может просто отражать статистическую реальность, а не когнитивные ограничения.

Инструменты открывают доступ к рассуждениям более высокого уровня

Команда Pfizer снова протестировала GPT-4o и o4-mini, на этот раз с доступом к инструменту Python. Оба алгоритма легко решали простые головоломки, но по мере усложнения задачи их методы расходились.

GPT-4o использовал Python для реализации логичной, но ошибочной стратегии и не распознал ошибку. С другой стороны, o4-mini заметил свою первоначальную ошибку, проанализировал ее и переключился на правильный подход, что привело к успешному решению.

Модель o4-mini обнаруживает ошибку, меняет свою стратегию и в конечном итоге решает головоломку с лодкой

Исследователи связывают такое поведение с классическими идеями когнитивной науки. GPT-4o действует как «Система 1» Дэниела Канемана — быстро и интуитивно, но склонна придерживаться плохого плана. o4-mini, в свою очередь, демонстрирует мышление «Системы 2»: медленное, аналитическое и способное пересмотреть собственную стратегию после осознания ошибки. Такая метакогнитивная корректировка считается типичной для сознательного решения проблем.

Переосмысление способов оценки моделей логического вывода

Команда Pfizer утверждает, что будущие тесты LRM должны проверять модели как с инструментами, так и без них. Тесты без инструментов выявляют ограничения языковых интерфейсов, в то время как тесты с инструментами показывают, чего могут достичь модели в качестве агентов. Они также призывают к созданию тестов, которые будут оценивать метакогнитивные способности, такие как обнаружение ошибок и стратегическая корректировка.

Эти результаты также имеют значение с точки зрения безопасности. Модели ИИ, которые слепо следуют ошибочным планам, не исправляя их, могут быть небезопасными, в то время как модели, способные пересматривать свои стратегии, скорее всего, будут более надёжными.

Первоначальное исследование «Иллюзия мышления», проведённое Шоджаи и др. (2025), вызвало широкую дискуссию о том, на что на самом деле способны большие языковые модели. Анализ Pfizer подтверждает эти сведения, но указывает на более сложные аспекты проблемы, чем просто «отсутствие у машин способности к мышлению».

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии