Сайт Lmarena обновил свой рейтинг языковых моделей, отдельно показав разные версии GPT-5. Данный рейтинг интересен тем, что составляется при помощи пользователей, которые задают вопрос и получают два анонимных ответа от разных моделей, выбирая из них лучший.
Давайте разберем рейтинг подробнее. GPT-5-high — это рассуждающая версия новой модели, причем на максимальных настройках. Она осталась лидером, незначительно обходя Gemini 2.5 Pro от Google. Отмечу, что в результатах не выделили отдельно GPT-5-medium — версию с меньшим ресурсом на рассуждения, которая доступна в самой популярной подписке ChatGPT Plus. Впрочем, другие бенчмарки показывают, что medium-версия лишь незначительно выступает высокой.
GPT-5-Chat — версия без режима рассуждений, которую обычно используют как чат-бот или для быстрых ответов на простые вопросы. Эта модель задумывалась как замена GPT-4o, но неожиданно проигрывает ей. Если говорить о рейтинге по категориям, то GPT-5-chat оказалась впереди в математике и следовании инструкциям, а 4o обошла ее в многоэтапных диалогах, написании текстов, программировании и обработке длинных запросов. Отдельно отмечу серьезное отставание в ответах на русском языке: GPT-4o набирает 1441 очко, а GPT-5-chat — только 1418 очков.
Через несколько дней после запуска GPT-5, в OpenAI под давлением пользователей приняли решение вернуть GPT-4o. Также 16 августа были применены обновленные настройки «персоны» для GPT-5-chat, которые должны сделать модель более отзывчивым собеседником.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com