Artificial Analysis обновили свой Intelligence Index

В новых тестах неожиданно выстрелил Gemini 3 Pro Preview. По половине бенчмарков у модели не просто небольшой прирост, а заметный скачок вперёд.

Фактические знания и галлюцинации

Gemini 3 Pro Preview занимает 1-е место в 5 из 10 тестов Artificial Analysis Intelligence Index:GPQA Diamond, MMLU‑Pro, HLE, LiveCodeBench и SciCode.

Самый показательный результат — 37% в Humanity’s Last Exam (сложный экзамен «на последнюю попытку человечества»). Это на 10+ п.п. выше предыдущего лучшего результата — для такого класса задач это большой отрыв, а не статистический шум.»

Отдельно модель лидирует в AA‑Omniscience, новом комплексном бенчмарке знаний и галлюцинаций:

лучшая по Omniscience Index (учитывает штрафы за ошибки и выдумки),

и по Omniscience Accuracy (процент правильных ответов).

Так как качество фактов обычно хорошо коррелирует с размером модели, всё указывает на то, что Gemini 3 Pro заметно крупнее ближайших конкурентов.

Код и агентные задачи

В кодинге Gemini 3 Pro Preview берёт 1-е место в 2 из 3 тестов AI Index и показывает 56% в SciCode — это сразу +10 п.п. к прежнему рекорду.

В агентных сценариях (когда модель действует как «умный исполнитель» в реальной среде) результат тоже уверенный:—> 2-е место в Terminal‑Bench Hard и Tau2-Bench Telecom. То есть с задачами уровня «запусти, проверь, исправь, повтори» модель справляется не только в синтетических примерах.

Мультимодальность

Gemini 3 Pro Preview — полноценная мультимодальная модель: она понимает текст, изображения, видео и аудио.

На сложном визуальном бенчмарке MMMU‑Pro (многошаговое рассуждение по картинкам и комбинации сигналов) модель показывает лучший результат среди всех участников.

Сейчас в рейтинге MMMU‑Pro у Google сразу 1-е, 3-е и 4-е места, а 2-е — у GPT-5.1, который добавили в таблицу на прошлой неделе.

Источник: artificialanalysis.ai

Для индустрии это очередной сигнал: топовые LLM уже не просто «болталки», а инструменты, которые держат факты, пишут код и работают как агенты в проде. В OTUS мы оборачиваем такие сдвиги в практические треки: на курсе «LLM Driven Development» разбираем, как встраивать модели в сервисы и строить вокруг них агентные сценарии, в «AI для разработчиков» — как использовать LLM в повседневной разработке.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии