Исследование МТИ: GPT-4 не сдал экзамен на адвоката

Исследователь Массачусетского технологического института решил проверить утверждение о том, что модель GPT-4 от OpenAI обошла 90% юристов-стажёров во время экзамена на адвоката. Выяснилось, что модель попала только в 10% лучших в группе повторно сдававших тест.

Таким образом, GPT-4 смогла обойти большинство стажёров, но в той группе, где люди повторно сдавали экзамен, провалив его в первый раз или набрав минимум баллов.

Автор исследования Эрик Мартинес, докторант кафедры мозговых и когнитивных наук, отмечает, что OpenAI использовала исследование 2023 года, где GPT-4 отвечал на вопросы унифицированного экзамена на адвоката (UBE). Он обычно состоит из трёх компонентов: экзамен с несколькими вариантами ответов (MBE); Multistate Performance Test (MPT), который заставляет экзаменуемых выполнять различные юридические задачи; письменный экзамен с эссе (MEE).

Результаты модели ИИ были впечатляющими: она набрала 297 баллов из 400. Когда Мартинес сравнил эффективность модели в более общем плане, она попала в 69-й процентиль среди всех тестируемых и 48-й среди тех, кто проходил тест впервые. Исследование Мартинеса также показало, что результаты модели варьировались от посредственных до ниже среднего в задаче по написанию эссе. Она продемонстрировала результаты от 48-го процентиля среди всех сдающих до 15-го среди тех, кто сдавал тест впервые.

Далее Мартинес повторно запустил тест для GPT-4. Он отметил, что в первоначальном исследовании не использовались рекомендации по оцениванию эссе, установленные Национальной конференцией экзаменаторов-адвокатов, которая проводит экзамен. Вместо этого исследователи просто сравнили ответы с «хорошими ответами» жителей штата Мэриленд. Однако именно написание эссе на экзамене считается наиболее близким к задачам, выполняемым практикующим юристом.

«Хотя переход от GPT-3.5, несомненно, был впечатляющим и очень достойным внимания, тот факт, что GPT-4 особенно с трудом справлялся с написанием эссе по сравнению с практикующими юристами, указывает на то, что большие языковые модели, по крайней мере сами по себе, не могут выполнять то, что адвокат делает ежедневно», — говорит Мартинес.

Минимальный проходной балл варьируется от штата к штату от 260 до 272, поэтому балл за эссе GPT-4, вероятно, не позволил бы ИИ преодолеть этот барьер. Согласно исследованию, снижение оценки за эссе всего на девять баллов приведёт к тому, что кандидат окажется в нижней четверти и ниже пятого процентиля лицензированных адвокатов. 

Источник: habr.com

0 0 голоса
Рейтинг новости
0
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии