Чат-версия GPT-5 уступила GPT-4o в обновленном рейтинге Lmarena

Сайт Lmarena обновил свой рейтинг языковых моделей, отдельно показав разные версии GPT-5. Данный рейтинг интересен тем, что составляется при помощи пользователей, которые задают вопрос и получают два анонимных ответа от разных моделей, выбирая из них лучший.

Давайте разберем рейтинг подробнее. GPT-5-high — это рассуждающая версия новой модели, причем на максимальных настройках. Она осталась лидером, незначительно обходя Gemini 2.5 Pro от Google. Отмечу, что в результатах не выделили отдельно GPT-5-medium — версию с меньшим ресурсом на рассуждения, которая доступна в самой популярной подписке ChatGPT Plus. Впрочем, другие бенчмарки показывают, что medium-версия лишь незначительно выступает высокой.

GPT-5-Chat — версия без режима рассуждений, которую обычно используют как чат-бот или для быстрых ответов на простые вопросы. Эта модель задумывалась как замена GPT-4o, но неожиданно проигрывает ей. Если говорить о рейтинге по категориям, то GPT-5-chat оказалась впереди в математике и следовании инструкциям, а 4o обошла ее в многоэтапных диалогах, написании текстов, программировании и обработке длинных запросов. Отдельно отмечу серьезное отставание в ответах на русском языке: GPT-4o набирает 1441 очко, а GPT-5-chat — только 1418 очков.

Через несколько дней после запуска GPT-5, в OpenAI под давлением пользователей приняли решение вернуть GPT-4o. Также 16 августа были применены обновленные настройки «персоны» для GPT-5-chat, которые должны сделать модель более отзывчивым собеседником.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”