Исследование МТИ: GPT-4 не сдал экзамен на адвоката

Исследователь Массачусетского технологического института решил проверить утверждение о том, что модель GPT-4 от OpenAI обошла 90% юристов-стажёров во время экзамена на адвоката. Выяснилось, что модель попала только в 10% лучших в группе повторно сдававших тест.

Таким образом, GPT-4 смогла обойти большинство стажёров, но в той группе, где люди повторно сдавали экзамен, провалив его в первый раз или набрав минимум баллов.

Автор исследования Эрик Мартинес, докторант кафедры мозговых и когнитивных наук, отмечает, что OpenAI использовала исследование 2023 года, где GPT-4 отвечал на вопросы унифицированного экзамена на адвоката (UBE). Он обычно состоит из трёх компонентов: экзамен с несколькими вариантами ответов (MBE); Multistate Performance Test (MPT), который заставляет экзаменуемых выполнять различные юридические задачи; письменный экзамен с эссе (MEE).

Результаты модели ИИ были впечатляющими: она набрала 297 баллов из 400. Когда Мартинес сравнил эффективность модели в более общем плане, она попала в 69-й процентиль среди всех тестируемых и 48-й среди тех, кто проходил тест впервые. Исследование Мартинеса также показало, что результаты модели варьировались от посредственных до ниже среднего в задаче по написанию эссе. Она продемонстрировала результаты от 48-го процентиля среди всех сдающих до 15-го среди тех, кто сдавал тест впервые.

Далее Мартинес повторно запустил тест для GPT-4. Он отметил, что в первоначальном исследовании не использовались рекомендации по оцениванию эссе, установленные Национальной конференцией экзаменаторов-адвокатов, которая проводит экзамен. Вместо этого исследователи просто сравнили ответы с «хорошими ответами» жителей штата Мэриленд. Однако именно написание эссе на экзамене считается наиболее близким к задачам, выполняемым практикующим юристом.

«Хотя переход от GPT-3.5, несомненно, был впечатляющим и очень достойным внимания, тот факт, что GPT-4 особенно с трудом справлялся с написанием эссе по сравнению с практикующими юристами, указывает на то, что большие языковые модели, по крайней мере сами по себе, не могут выполнять то, что адвокат делает ежедневно», — говорит Мартинес.

Минимальный проходной балл варьируется от штата к штату от 260 до 272, поэтому балл за эссе GPT-4, вероятно, не позволил бы ИИ преодолеть этот барьер. Согласно исследованию, снижение оценки за эссе всего на девять баллов приведёт к тому, что кандидат окажется в нижней четверти и ниже пятого процентиля лицензированных адвокатов.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”