Почему традиционные тесты не отражают реальный потенциал ИИ

Интеллект проявляется повсеместно, но его измерение кажется субъективным. В лучшем случае мы приблизительно оцениваем его с помощью тестов и контрольных заданий. Вспомните вступительные экзамены в колледж: каждый год бесчисленное количество студентов записываются на них, заучивают советы по подготовке к экзаменам и иногда получают идеальные баллы. Означает ли одно число, например 100%, что у тех, кто его получил, одинаковый уровень интеллекта — или что они каким-то образом максимально раскрыли свой интеллект? Конечно, нет. Тесты — это приблизительные, а не точные измерения реальных возможностей кого-либо или чего-либо.

Сообщество генеративного ИИ уже давно использует такие тесты, как MMLU (Massive Multitask Language Understanding), для оценки возможностей моделей с помощью вопросов с несколькими вариантами ответов в разных академических дисциплинах. Этот формат позволяет проводить простые сравнения, но не позволяет в полной мере оценить интеллектуальные возможности.

Например, и Claude 3.5 Sonnet, и GPT-4.5 набирают одинаковое количество баллов в этом тесте. На бумаге это говорит об их схожих возможностях. Однако люди, работающие с этими моделями, знают, что в реальных условиях они ведут себя по-разному.

Вслед за выпуском нового бенчмарка ARC-AGI — теста, предназначенного для продвижения моделей к общему мышлению и творческому решению проблем, возобновились дебаты о том, что значит измерять «интеллект» в ИИ. Хотя еще не все протестировали бенчмарк ARC-AGI, отрасль приветствует это и другие усилия по развитию фреймворков тестирования. У каждого бенчмарка есть свои достоинства, и ARC-AGI — многообещающий шаг в этом более широком обсуждении.

Ещё одним заметным недавним достижением в области оценки ИИ является «Последний экзамен человечества» — комплексный тест, содержащий 3000 рецензируемых многоэтапных вопросов по различным дисциплинам. Хотя этот тест представляет собой амбициозную попытку проверить системы ИИ на способность рассуждать на экспертном уровне, первые результаты показывают быстрый прогресс: OpenAI, как сообщается, набрал 26,6% баллов в течение месяца после публикации. Однако, как и другие традиционные тесты, он в первую очередь оценивает знания и логику по отдельности, не проверяя практические навыки использования инструментов, которые всё чаще становятся критически важными для реальных приложений ИИ.

В одном примере несколько современных моделей не могут правильно подсчитать количество букв «р» в слове «клубника». В другом примере они ошибочно определяют, что 3,8 меньше, чем 3,1111. Подобные ошибки в задачах, которые мог бы решить даже маленький ребёнок или обычный калькулятор, демонстрируют несоответствие между прогрессом, измеряемым с помощью тестов, и надёжностью в реальных условиях, напоминая нам, что интеллект — это не только сдача экзаменов, но и надёжное применение логики в повседневной жизни.

По мере развития моделей эти традиционные тесты показали свою ограниченность: GPT-4 с помощью инструментов достигает лишь 15% успеха в более сложных задачах из реальной жизни в тесте GAIA, несмотря на впечатляющие результаты в тестах с несколькими вариантами ответов.

Этот разрыв между эталонными показателями и практическими возможностями становится всё более проблематичным по мере того, как системы искусственного интеллекта переходят из исследовательской среды в бизнес-приложения. Традиционные тесты проверяют запоминание знаний, но упускают из виду важнейшие аспекты интеллекта: способность собирать информацию, выполнять код, анализировать данные и синтезировать решения в различных областях.

GAIA — это необходимый сдвиг в методологии оценки ИИ. Созданный в результате сотрудничества между командами Meta-FAIR, Meta-GenAI, HuggingFace и AutoGPT, этот тест включает 466 тщательно составленных вопросов на трёх уровнях сложности. Эти вопросы проверяют работу с веб-сайтами, мультимодальное понимание, выполнение кода, работу с файлами и сложные рассуждения — возможности, необходимые для реальных приложений ИИ.

Для решения задач 1-го уровня человеку требуется примерно 5 шагов и один инструмент. Для решения задач 2-го уровня требуется от 5 до 10 шагов и несколько инструментов, а для решения задач 3-го уровня может потребоваться до 50 отдельных шагов и любое количество инструментов. Эта структура отражает реальную сложность бизнес-задач, решение которых редко сводится к одному действию или инструменту.

Отдавая приоритет гибкости, а не сложности, модель ИИ достигла 75-процентной точности на GAIA, превзойдя отраслевых гигантов Microsoft Magnetic-1 (38%) и Google Langfun Agent (49%). Их успех обусловлен использованием комбинации специализированных моделей для аудиовизуального восприятия и рассуждений, при этом основной моделью является Sonnet 3.5 от Anthropic.

Эта эволюция в области оценки ИИ отражает более масштабные изменения в отрасли: мы переходим от отдельных SaaS-приложений к ИИ-агентам, которые могут управлять несколькими инструментами и рабочими процессами. Поскольку компании всё чаще полагаются на системы ИИ для выполнения сложных многоэтапных задач, такие тесты, как GAIA, дают более точное представление о возможностях, чем традиционные тесты с несколькими вариантами ответов.

Будущее оценки ИИ заключается не в отдельных тестах на знание, а в комплексной оценке способности решать проблемы. GAIA устанавливает новый стандарт для измерения возможностей ИИ, который лучше отражает проблемы и возможности реального применения ИИ.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии