ChatGPT прошёл тест Тьюринга

Учёные-когнитивисты из Калифорнийского университета в Сан-Диего заявили, что ChatGPT-4 успешно прошёл тест Тьюринга, обманув испытуемых-людей в 54% случаев.

Однако, по их мнению, такой результат может больше сказать о самом тесте, нежели об интеллекте современного ИИ. Математик Алан Тьюринг разработал свой тест ещё в 1950 году. Его участник-человек должен был общаться с компьютером через текстовый интерфейс. В случае, если ответы компьютера нельзя отличить от человеческих по широкому спектру возможных вопросов, то нужно признать, что он так же разумен, как и человек, рассуждал Тьюринг.

Исследователи попросили 500 участников поговорить с четырьмя разными агентами: тремя системами ИИ и одним человеком. В качестве ИИ выступили ChatGPT-4, ChatGPT-3.5 — две модели популярного чат-бота от OpenAI — и программа чата эпохи 1960-х годов под названием ELIZA.

Участников попросили убедить собеседника в том, что он человек, либо выяснить, с кем они разговаривают. Затем им дали пообщаться в течение пяти минут. После этого участников спросили, думают ли они, что разговаривают с компьютером, почему они так думают и насколько они уверены в своём мнении. В то время как устаревшая система ELIZA обманывала участников только 22% случаев, ChatGPT-3.5 смог сделать это ровно в половине бесед. Более продвинутая версия ChatGPT-4 показала себя ещё лучше. Для сравнения — участники правильно идентифицировали людей в беседах только в 67% случаев.

По словам исследователей, результаты «представляют собой первую надёжную эмпирическую демонстрацию того, что любая искусственная система проходит интерактивный тест Тьюринга для двух участников».

Пока это лишь предварительная версия статьи и она ожидает рецензирования, поэтому к результатам следует относиться с некоторой осторожностью. Однако, если они подтвердятся, это станет первым убедительным доказательством того, что ИИ прошёл тест Тьюринга.

Нелл Уотсон, исследователь искусственного интеллекта в IEEE, заявил: «Машины могут гадать, смешивая воедино правдоподобные обоснования вещей постфактум, как это делают люди. Это означает, что в системах искусственного интеллекта выражаются человеческие слабости и причуды, что делает их более похожими на людей, чем предыдущие системы».

Хотя может показаться странным включать программу 1960-х годов в испытание передовых технологий, эта модель была призвана проверить работу так называемого «эффекта ELIZA». Это идея о том, что люди могут очеловечивать даже очень простые системы.

Исследователи также отмечают, что изменение общественного восприятия ИИ могло повлиять на результаты теста Тьюринга: «На первый взгляд, низкий процент прохождения людьми может быть удивительным. Разве люди не должны проходить его в 100% случаев?». В 1950 году это предположение имело бы смысл, поскольку тогда отличить подобные системы от человека было проще. Однако теперь общественность становится все более осведомлённой об ИИ и его возможностях.

Исследователи также признают обоснованность критики теста Тьюринга. По их словам, «стилистические и социально-эмоциональные факторы играют большую роль в его прохождении, чем традиционные представления об интеллекте». Аналогичным образом, одной из наиболее успешных стратегий идентификации роботов был опрос о человеческом опыте, который срабатывал в 75% случаев. Это говорит о том, что тест Тьюринга на самом деле не доказывает разумность системы, а, скорее, измеряет её способность имитировать или обманывать людей.

По мнению исследователей, нынешний результат в лучшем случае обеспечивает «вероятностное» подтверждение того, что ChatGPT интеллектуален. Они отмечают, что убедительные системы ИИ могут «играть экономически ценные роли по работе с клиентами, вводить в заблуждение широкую общественность или своих собственных операторов-людей и подрывать социальное доверие к человеческим взаимодействиям».

Между тем исследователи из Редингского университета применили ChatGPT на базе GPT-4, чтобы сгенерировать ответы экзамена по психологии. Затем их отправили коллегам, которые смогли определить только одну из 33 тестовых работ как созданную ИИ. В некоторых случаях работы ИИ получили более высокие оценки, чем реальные студенты.

Источник: habr.com

0 0 голоса

Рейтинг новости

26592

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”