Вслед за вчерашним запуском Gemini 3 Pro начали появляться первые независимые оценки ИИ в бенчмарках. Одним из самых интересных стал бенчмарк Design Arena. Это слепое исследование: пользователь пишет промпт на написание кода с элементами дизайна (например, интерфейсом), видит два варианта, выбирает лучший — и только после этого ему сообщается, какие ИИ участвовали. Gemini 3 Pro заняла первое место в этом бенчмарке, победив в четырех из пяти категорий — веб-дизайн, 3D дизайн, компоненты интерфейса и гейм-дизайн. Уступила модель только в визуализации графиков.
Также Gemini 3 Pro заняла первое место на LMArena — аналогичной «арене», где в слепом тесте ИИ оцениваются в ответах на самые разные промпты, от веб-разработки до написания творческих текстов. Gemini 3 Pro с рейтингом в 1501 очко заняла первое место во всех категориях — забавно, что модель победила Grok 4.1, который вышел на день раньше, взяв первые два места с рейтингами 1484 и 1465 очков. Это показывает уровень конкуренции на ИИ-рынке.
И последним еще один важный бенчмарк — на пространственное мышление:
В нем Gemini 3 Pro значительно обходит ближайших конкурентов, почти дотягиваясь до человеческого уровня, который принят за 100%. Важно отметить, что пространственное мышление до недавнего времени считалось одной из главных проблем языковых моделей — слабая картина мира мешала им делать выводы о положении предметов относительно друг друга, оценивать размеры, возможность поместить один предмет в другой и так далее.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com