Gemini 3.0 Pro показала сильный прогресс в сложных бенчмарках

Несмотря на то, что официальный анонс Gemini 3.0 Pro еще не состоялся, на сайте Google уже случилась утечка карточки новой модели с основными характеристиками и цифрами по бенчмаркам (обновление: карточка удалена, характеристики и бенчмарки дальше пересказаны в новости, остальная часть описания была посвящена безопасности модели). Новая модель поддерживает контекстное окно до 1M токенов, а также выход до 64K токенов. В большинстве бенчмарков она показывает существенный прирост как в сравнении с предыдущей 2.5 Pro, так и с основными конкурентами:

Разберем самые важные. ARC-AGI-2 — бенчмарк на абстрактное решение, в котором модели показывают способность на примерах изучать правила решения задач и использовать их в новых похожих задачах. Буквально день назад новым лидером в бенчмарке стала GPT-5.1 Thinking (17,6%) — однако Gemini 3.0 Pro обошла ее почти в два раза (31,1%). Однако до человеческого уровня в 66% еще далеко.

MathArena Apex — тест на математические задачи экстремальной сложности. Gemini 3 Pro показывает в нем 23.4%, когда остальные модели не выходят и за 1,6%. В ScreenSpot-Pro 72,7%, что в разы выше конкурентов — это бенчмарк на понимание интерфейсов, что потенциально может быть важным для агентских функций. Наконец, новинка показывает 37,5% в Humanity’s Last Exam — тест на сложные академические вопросы, где ранее лидером была GPT-5.1 Thinking (26,5%). В большинстве остальных бенчмарков модель также занимает первое место, пусть и с меньшим отрывом.

Выход Gemini 3.0 Pro ожидается в ближайшие часы, модель сразу же будет запущена в Gemini App, Vertex AI, Google AI Studio, Google API. Ждем дополнительных тестов и примеров работы модели на реальных задачах.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”