GPT-5 Pro стала лидером по IQ среди ИИ. «Средний» человек позади (но с оговорками)

Tracking AI представил обновленный рейтинг ИИ в тесте на IQ. Первые два места в нем заняли две версии GPT-5 Pro (со выключенным и включенным компьютерным зрением), следом расположились Gemini 2.5 Pro, Claude Opus 4 и Grok 4. IQ моделей-лидеров колеблется в вилке 110-138 баллов, что выше IQ среднего человека, который равен 100 баллам. Но важно отметить, что, в отличие от человека, ИИ не ограничен во времени на тест и может сделать до 10 попыток решения задачи (это сделано чтобы снять отказы из-за систем безопасности, которые иногда реагируют на слова вроде «экзамен» и «тренировка»).

Создатели теста использовали сразу несколько подходов к проверке моделей. Вопросы поделили на две категории. Mensa Norway — официальный тест из 35 задач за 25 минут. Offline test — специальный набор задач, максимально близкий к Mensa Norway, но созданный с нуля и отсутствующий в интернете (соответственно, модели нельзя было специально натренировать на этот тест). Также модели отдельно оценивали со включенным и выключенным компьютерным зрением — в последнем случае предлагались полностью текстовые описания задач.

Интересно, что остальные версии GPT-5 оказались не такими успешными в тесте, как Pro. Например, рассуждающий вариант GPT-5-Thinking разместился в середине таблицы, пропустив вперед себя как лучшую модель OpenAI прошлого поколения (o3), так и более простую версию GPT-5. Это может значить как несовершенство IQ-теста для оценки ИИ, так и необходимость лучшей настройки режима рассуждений GPT-5.

Также почти все модели показали меньший результат в оффлайн-тесте. Это доказывает версию, что качественные бенчмарки для ИИ надо собирать «с нуля», а затем следить за тем, чтобы они не утекли в интернет и не были использованы для тренировки новых моделей.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии