Представлена обновленная Gemini 2.5 Pro — новый топ среди языковых моделей

Google выпустила Gemini 2.5 Pro Preview 06-05 — обновленную версию своей самой мощной LLM, которая по-совместительству является одной из самых мощных нейросетей на рынке. В компании утверждают о лидерстве в большинстве известных рейтингов, причем в некоторых модель соревновалась с прошлой версией самой себя.

Модель заметно улучшила результаты в AIDER Polyglot (бенчмарк для оценки многоязычных способностей в программировании), HLE (тест на глубокое рассуждение и общие знания) и GPQA (бенчмарк из вопросов по физике уровня магистратуры/аспирантуры, проверяющий научные и математические способности модели).

Модель набирает 1443 очка в WebDev Arena — рейтинге, который показывает успешность нейросетей в веб-разработке.

1470 очков в Text Arena Leaderbord — рейтинге, в котором модели соревнуются в написании художественных текстов.

1278 очков в Vision Arena — бенчмарке, оценивающем мультимодальность:

Также в Google заявляют, что поработали над стилем общения модели — теперь ее ответы должны стать более остроумными и креативными, а также лучше структурированными. Но это утверждение каждый должен проверить для себя сам.

Модель уже появилась в Google AI Studio, а в ближайшее время наверняка станет доступна в приложении Gemini для подписчиков Pro и Ultra. Здесь не обошлось без небольшого негатива: буквально два дня назад Google ввела лимиты на использование 2.5 Pro для пользователей 20-долларовой подписки, ограничив их 50 запросами в сутки. После горы возмущенных постов в X лимиты увеличили до 100 запросов в сутки. Это меньше, ведь раньше 2.5 Pro была практически не лимитирована, но все равно лучше, чем в подписке ChatGPT Plus, где конкурирующая o3 ограничена 100 запросами в неделю.

P.S. Поддержать меня можете подпиской на телеграм-канал «Сбежавшая нейросеть», где я рассказываю о языковых моделях с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”