Хотя GPT-5 серьезно обогнала GPT-4 на новых бенчмарках — с приростами до +80 п.п. на самых сложных задачах — многие восприняли ее релиз как эволюционный апдейт, а не прорыв. В Epoch AI назвали две причины такой реакции пользователей: частота запуска новых моделей сейчас намного выше, чем два года назад, а многие старые бенчмарки «пройдены» почти полностью. Посмотрим на эти два графика:
Точки на графике — релизы новых моделей OpenAI. Между GPT-3 и GPT-4 был лишь один крупный апдейт — GPT-3.5. А вот с выходом GPT-4 подход компании поменялся: одна за другой последовали GPT-4-Turbo (две версии), GPT-4o (две версии), o1-Preview, o1-mini, o1 (high), o3-mini, o3 (high), o4-mini и, наконец, GPT-5. Когда новая модель выходит раз в несколько месяцев (а если учитывать конкурентов OpenAI — то буквально каждый месяц), то показать эффект рывка практически невозможно.
Вторая причина — «сатурация» (насыщение) некоторых бенчмарков. Например, бенчмарк MMLU состоит из почти 16 000 вопросов по разным дисциплинам. GPT-3 показывала в нем 44%, а GPT-4 достигла 86% — то есть рост практически в два раза. o3 достигла в этом тесте 93% — рост уже не такой большой. GPT-5 в нем замерять и вовсе не стали, перейдя на усложненную версию MMLU-Pro — в ней результат модели 86%. Но если сравнивать прогресс GPT-3 к GPT-4 и GPT-4 к GPT-5, то получаются похожие цифры:
GPT-3 → GPT-4: MMLU +43 п.п., HumanEval +67 п.п., TruthfulQA +40 п.п., MATH +37 п.п.;
GPT-4 (ранняя версия) → GPT-5: GPQA Diamond +54 п.п., MATH Level 5 +75 п.п., Mock AIME 24-25 +80 п.п.
Также в Epoch AI обращают внимание на METR Time Horizons (50%) — бенчмарк, в котором берут задачи разной сложности, смотрят, где модель решает хотя бы половину из них, и оценивают ИИ по количеству времени, которое уходит на решение задачи. GPT-3 справлялась с 50% задач, которые занимают около 9 секунд, для GPT-4 этот показатель увеличился до 5,36 минут (прирост в 36 раз), а для GPT-5 достиг 137 минут. Прирост GPT-5 к GPT-4 составил 25 раз, что укладывается в долгосрочную экспоненту.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com