Существует множество тестов для оценки уровня ИИ — от заданий на бытовую логику до проверки математических способностей.
Журналист Максим Лотт запустил сайт под названием Tracking AI, где собираются результаты разных IQ‑тестов для ИИ и ответы на политические вопросы. Это позволяет объективно сравнить разные модели между собой.
В работе проекта используются два источника вопросов: уникальный IQ‑тест, созданный самим автором и недоступный в открытом доступе (а значит, не попадавший в датасеты для обучения ИИ), а также официальный онлайн‑тест Mensa. Моделям с возможностью «видеть» скармливались исходные схемы и изображения, тогда как текстовые ИИ получали лишь словесные описания диаграмм.
На графике ниже представлены результаты. Чёрные столбики показывают баллы за самодельный тест, оранжевые — за тест Mensa. Лидером в «домашнем» испытании стал GPT-5 Pro с IQ 123. В тесте Mensa абсолютным чемпионом оказался GPT-5 Pro (мультимодальный) — IQ 138. Для сравнения: ещё недавно мультимодальный GPT-4o показывал всего 65 баллов.
Не отстал и Grok 4, ранее рекламировавшийся как «самый мощный ИИ в мире»: он набрал IQ 110 в самодельном тесте и 125 в Mensa.
Ещё один график отражает динамику: IQ у разных моделей растёт по мере обновлений. Особенно заметен скачок у Claude 3.7 Sonnet Extended (красная линия) и Claude 3.5 Sonnet (оранжевая), которые буквально из месяца в месяц становились умнее.
Воспользоваться моделями ChatGPT, Claude или Grok можно в BotHub. По ссылке дают 100 000 бесплатных капсов, чтобы сразу приступить к работе с нейросетями.
Источник: habr.com