Gemini 3 Pro стала первой в дизайне и еще нескольких важных бенчмарках

Вслед за вчерашним запуском Gemini 3 Pro начали появляться первые независимые оценки ИИ в бенчмарках. Одним из самых интересных стал бенчмарк Design Arena. Это слепое исследование: пользователь пишет промпт на написание кода с элементами дизайна (например, интерфейсом), видит два варианта, выбирает лучший — и только после этого ему сообщается, какие ИИ участвовали. Gemini 3 Pro заняла первое место в этом бенчмарке, победив в четырех из пяти категорий — веб-дизайн, 3D дизайн, компоненты интерфейса и гейм-дизайн. Уступила модель только в визуализации графиков.

Также Gemini 3 Pro заняла первое место на LMArena — аналогичной «арене», где в слепом тесте ИИ оцениваются в ответах на самые разные промпты, от веб-разработки до написания творческих текстов. Gemini 3 Pro с рейтингом в 1501 очко заняла первое место во всех категориях — забавно, что модель победила Grok 4.1, который вышел на день раньше, взяв первые два места с рейтингами 1484 и 1465 очков. Это показывает уровень конкуренции на ИИ-рынке.

И последним еще один важный бенчмарк — на пространственное мышление:

В нем Gemini 3 Pro значительно обходит ближайших конкурентов, почти дотягиваясь до человеческого уровня, который принят за 100%. Важно отметить, что пространственное мышление до недавнего времени считалось одной из главных проблем языковых моделей — слабая картина мира мешала им делать выводы о положении предметов относительно друг друга, оценивать размеры, возможность поместить один предмет в другой и так далее.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”