Artificial Analysis обновили свой Intelligence Index

В новых тестах неожиданно выстрелил Gemini 3 Pro Preview. По половине бенчмарков у модели не просто небольшой прирост, а заметный скачок вперёд.

Фактические знания и галлюцинации

Gemini 3 Pro Preview занимает 1-е место в 5 из 10 тестов Artificial Analysis Intelligence Index:GPQA Diamond, MMLU‑Pro, HLE, LiveCodeBench и SciCode.

Самый показательный результат — 37% в Humanity’s Last Exam (сложный экзамен «на последнюю попытку человечества»). Это на 10+ п.п. выше предыдущего лучшего результата — для такого класса задач это большой отрыв, а не статистический шум.»

Отдельно модель лидирует в AA‑Omniscience, новом комплексном бенчмарке знаний и галлюцинаций:

лучшая по Omniscience Index (учитывает штрафы за ошибки и выдумки),

и по Omniscience Accuracy (процент правильных ответов).

Так как качество фактов обычно хорошо коррелирует с размером модели, всё указывает на то, что Gemini 3 Pro заметно крупнее ближайших конкурентов.

Код и агентные задачи

В кодинге Gemini 3 Pro Preview берёт 1-е место в 2 из 3 тестов AI Index и показывает 56% в SciCode — это сразу +10 п.п. к прежнему рекорду.

В агентных сценариях (когда модель действует как «умный исполнитель» в реальной среде) результат тоже уверенный:—> 2-е место в Terminal‑Bench Hard и Tau2-Bench Telecom. То есть с задачами уровня «запусти, проверь, исправь, повтори» модель справляется не только в синтетических примерах.

Мультимодальность

Gemini 3 Pro Preview — полноценная мультимодальная модель: она понимает текст, изображения, видео и аудио.

На сложном визуальном бенчмарке MMMU‑Pro (многошаговое рассуждение по картинкам и комбинации сигналов) модель показывает лучший результат среди всех участников.

Сейчас в рейтинге MMMU‑Pro у Google сразу 1-е, 3-е и 4-е места, а 2-е — у GPT-5.1, который добавили в таблицу на прошлой неделе.

Источник: artificialanalysis.ai

Для индустрии это очередной сигнал: топовые LLM уже не просто «болталки», а инструменты, которые держат факты, пишут код и работают как агенты в проде. В OTUS мы оборачиваем такие сдвиги в практические треки: на курсе «LLM Driven Development» разбираем, как встраивать модели в сервисы и строить вокруг них агентные сценарии, в «AI для разработчиков» — как использовать LLM в повседневной разработке.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”