Чат-версия GPT-5 уступила GPT-4o в обновленном рейтинге Lmarena

Сайт Lmarena обновил свой рейтинг языковых моделей, отдельно показав разные версии GPT-5. Данный рейтинг интересен тем, что составляется при помощи пользователей, которые задают вопрос и получают два анонимных ответа от разных моделей, выбирая из них лучший.

Давайте разберем рейтинг подробнее. GPT-5-high — это рассуждающая версия новой модели, причем на максимальных настройках. Она осталась лидером, незначительно обходя Gemini 2.5 Pro от Google. Отмечу, что в результатах не выделили отдельно GPT-5-medium — версию с меньшим ресурсом на рассуждения, которая доступна в самой популярной подписке ChatGPT Plus. Впрочем, другие бенчмарки показывают, что medium-версия лишь незначительно выступает высокой.

GPT-5-Chat — версия без режима рассуждений, которую обычно используют как чат-бот или для быстрых ответов на простые вопросы. Эта модель задумывалась как замена GPT-4o, но неожиданно проигрывает ей. Если говорить о рейтинге по категориям, то GPT-5-chat оказалась впереди в математике и следовании инструкциям, а 4o обошла ее в многоэтапных диалогах, написании текстов, программировании и обработке длинных запросов. Отдельно отмечу серьезное отставание в ответах на русском языке: GPT-4o набирает 1441 очко, а GPT-5-chat — только 1418 очков.

Через несколько дней после запуска GPT-5, в OpenAI под давлением пользователей приняли решение вернуть GPT-4o. Также 16 августа были применены обновленные настройки «персоны» для GPT-5-chat, которые должны сделать модель более отзывчивым собеседником.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии