«Последний экзамен человечества»: ученые создали тест, который не может пройти ИИ

Когда системы искусственного интеллекта начали набирать почти максимальные баллы на тестах, считавшихся сложными, специалисты забеспокоились: не стали ли такие задачи слишком простыми для все более совершенных нейросетей?

Известный экзамен MMLU, который еще недавно бросал вызов машинам, перестал отражать реальные возможности современных моделей. Чтобы заново измерить границы ИИ, международная группа в составе почти тысячи ученых разработала принципиально новый тест — «Последний экзамен человечества» (Humanity’s Last Exam, HLE).

HLE включает 2500 вопросов из математики, гуманитарных наук, естествознания, древних языков и множества узкоспециализированных областей. Среди заданий — перевод древнепальмирских надписей, определение мельчайших анатомических структур у птиц и анализ особенностей произношения библейского иврита. Каждый вопрос имеет один проверяемый ответ и составлен так, чтобы его нельзя было решить простым поиском в интернете.

Процесс отбора вопросов был по-своему безжалостным: если хотя бы одна ведущая ИИ-модель отвечала на вопрос правильно, его убирали из финальной версии. В результате экзамен оказался за пределами того, что современные системы способны надежно решить. На ранних этапах тестирования GPT-4o набрал лишь 2,7% правильных ответов, Claude 3.5 Sonnet — 4,1%, а модель o1 от OpenAI — 8%. Наиболее мощные системы к настоящему моменту достигают 40−50%.

«Когда ИИ-системы начинают блестяще справляться с тестами, возникает соблазн думать, что они приближаются к человеческому интеллекту, — говорит один из участников проекта, профессор Техасского университета A&M Тунг Нгуен, написавший 73 вопроса для экзамена. — Но HLE напоминает нам, что интеллект — это не только распознавание закономерностей. Это еще и глубина, контекст и специализированная экспертиза».

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости