Исследование: ИИ-модели лишь имитируют мышление человека

Группа исследователей ИИ в Apple опубликовала статью «Понимание ограничений математического рассуждения в больших языковых моделях» для общего обсуждения. Она посвящена концепциям символического обучения и воспроизведения шаблонов, но основная идея материала — ИИ не умеет думать как человек, а лишь имитирует мышление.

arxiv.org

Исследователи задавали ИИ сотни вопросов, а затем немного видоизменяли их, чтобы понять, как устроено мышление модели.

Пример:

Оливер собирает 44 киви в пятницу. Затем он собирает 58 киви в субботу. В воскресенье он собирает вдвое больше киви, чем в пятницу. Сколько киви у Оливера?

Ответ:

44 + 58 + (44 * 2) = 190.

Та же задача с небольшими изменениями:

Оливер выбирает 44 киви в пятницу. Затем он выбирает 58 киви в субботу. В воскресенье он выбирает вдвое больше киви, чем в пятницу, но пять из них были немного меньше среднего. Сколько киви у Оливера?

Ответ GPT-o1-mini:

… в воскресенье 5 из этих киви были меньше среднего. Нам нужно вычесть их из воскресной суммы: 88 (воскресные киви) – 5 (меньшие киви) = 83 киви.

Получается, что модель оказывается сбита с толку случайной, не относящейся к делу деталью. По словам исследователей, это говорит о том, что ИИ на самом деле вообще не понимает сути задачи. Обучающие данные позволяют моделям отвечать правильно в некоторых ситуациях, но как только требуется малейший элемент «рассуждения», они начинают выдавать странные инеинтуитивные результаты.

«Мы предполагаем, это снижение связано с тем, что нынешние LLM не способны к подлинному логическому рассуждению; вместо этого они пытаются воспроизвести шаги рассуждения, наблюдаемые в их обучающих данных», — отмечает исследователь OpenAI Мердад Фараджтабар.

Это наблюдение согласуется с другими качествами, часто приписываемыми LLM. Так, на фразу «Я люблю тебя» обычно следует ответ «Я тоже тебя люблю», но это не значит, что ИИ испытывает чувства. Хотя он может следовать сложным цепочкам рассуждений, с которыми сталкивался ранее, цепочка может быть разорвана даже поверхностными отклонениями, а это говорит о том, что ИИ на самом деле воспроизводит закономерности, которые наблюдал в своих обучающих данных.

Другой специалист из OpenAI возразил против сделанных выводов, заявив, что других результатов можно было достичь с помощью небольшой подсказки. Фараджтабар же отметил, что, хотя более точные подсказки могут работать для простых отклонений, модели может потребоваться экспоненциально больше контекста, чтобы противостоять сложным отвлечениям — тем, которые проигнорировал бы ребёнок. Поэтому, вероятно, LLM «рассуждают», но таким способом, который пока непонятен исследователям.

Ранее исследователи выяснили, что большие языковые модели, такие как GPT-4o и Claude, не могут правильно подсчитать число букв «r» в слове «strawberry». Они выдают ответ, что эта буква встречается в слове дважды, а не трижды. Доцент Университета Альберты Мэтью Гуздиал отметил: «LLM… на самом деле не читает текст. Когда вы вводите подсказку, она переводится в кодировку. Когда модель видит слово “the”, то получает его кодировку, при этом не понимая, что такое “T”, “H”, “E”». Затем числовые представления текста контекстуализируются, чтобы помочь ИИ выдать логический ответ.

Источник: habr.com

0 0 голоса

Рейтинг новости

17144

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”