Google выпустила Gemini 2.5 Pro Preview 06-05 — обновленную версию своей самой мощной LLM, которая по-совместительству является одной из самых мощных нейросетей на рынке. В компании утверждают о лидерстве в большинстве известных рейтингов, причем в некоторых модель соревновалась с прошлой версией самой себя.
Модель заметно улучшила результаты в AIDER Polyglot (бенчмарк для оценки многоязычных способностей в программировании), HLE (тест на глубокое рассуждение и общие знания) и GPQA (бенчмарк из вопросов по физике уровня магистратуры/аспирантуры, проверяющий научные и математические способности модели).
Модель набирает 1443 очка в WebDev Arena — рейтинге, который показывает успешность нейросетей в веб-разработке.
1470 очков в Text Arena Leaderbord — рейтинге, в котором модели соревнуются в написании художественных текстов.
1278 очков в Vision Arena — бенчмарке, оценивающем мультимодальность:
Также в Google заявляют, что поработали над стилем общения модели — теперь ее ответы должны стать более остроумными и креативными, а также лучше структурированными. Но это утверждение каждый должен проверить для себя сам.
Модель уже появилась в Google AI Studio, а в ближайшее время наверняка станет доступна в приложении Gemini для подписчиков Pro и Ultra. Здесь не обошлось без небольшого негатива: буквально два дня назад Google ввела лимиты на использование 2.5 Pro для пользователей 20-долларовой подписки, ограничив их 50 запросами в сутки. После горы возмущенных постов в X лимиты увеличили до 100 запросов в сутки. Это меньше, ведь раньше 2.5 Pro была практически не лимитирована, но все равно лучше, чем в подписке ChatGPT Plus, где конкурирующая o3 ограничена 100 запросами в неделю.
P.S. Поддержать меня можете подпиской на телеграм-канал «Сбежавшая нейросеть», где я рассказываю о языковых моделях с творческой стороны.
Источник: habr.com