Опубликованы результаты IQ-баталий между ИИ, включая ChatGPT 5 и Grok 4

Существует множество тестов для оценки уровня ИИ — от заданий на бытовую логику до проверки математических способностей.

Журналист Максим Лотт запустил сайт под названием Tracking AI, где собираются результаты разных IQ‑тестов для ИИ и ответы на политические вопросы. Это позволяет объективно сравнить разные модели между собой.

В работе проекта используются два источника вопросов: уникальный IQ‑тест, созданный самим автором и недоступный в открытом доступе (а значит, не попадавший в датасеты для обучения ИИ), а также официальный онлайн‑тест Mensa. Моделям с возможностью «видеть» скармливались исходные схемы и изображения, тогда как текстовые ИИ получали лишь словесные описания диаграмм.

На графике ниже представлены результаты. Чёрные столбики показывают баллы за самодельный тест, оранжевые — за тест Mensa. Лидером в «домашнем» испытании стал GPT-5 Pro с IQ 123. В тесте Mensa абсолютным чемпионом оказался GPT-5 Pro (мультимодальный) — IQ 138. Для сравнения: ещё недавно мультимодальный GPT-4o показывал всего 65 баллов.

Не отстал и Grok 4, ранее рекламировавшийся как «самый мощный ИИ в мире»: он набрал IQ 110 в самодельном тесте и 125 в Mensa.

Ещё один график отражает динамику: IQ у разных моделей растёт по мере обновлений. Особенно заметен скачок у Claude 3.7 Sonnet Extended (красная линия) и Claude 3.5 Sonnet (оранжевая), которые буквально из месяца в месяц становились умнее.

Воспользоваться моделями ChatGPT, Claude или Grok можно в BotHub. По ссылке дают 100 000 бесплатных капсов, чтобы сразу приступить к работе с нейросетями.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”