В новых тестах неожиданно выстрелил Gemini 3 Pro Preview. По половине бенчмарков у модели не просто небольшой прирост, а заметный скачок вперёд.
Фактические знания и галлюцинации
Gemini 3 Pro Preview занимает 1-е место в 5 из 10 тестов Artificial Analysis Intelligence Index:GPQA Diamond, MMLU‑Pro, HLE, LiveCodeBench и SciCode.
Самый показательный результат — 37% в Humanity’s Last Exam (сложный экзамен «на последнюю попытку человечества»). Это на 10+ п.п. выше предыдущего лучшего результата — для такого класса задач это большой отрыв, а не статистический шум.»
Отдельно модель лидирует в AA‑Omniscience, новом комплексном бенчмарке знаний и галлюцинаций:
лучшая по Omniscience Index (учитывает штрафы за ошибки и выдумки),
и по Omniscience Accuracy (процент правильных ответов).
Так как качество фактов обычно хорошо коррелирует с размером модели, всё указывает на то, что Gemini 3 Pro заметно крупнее ближайших конкурентов.
Код и агентные задачи
В кодинге Gemini 3 Pro Preview берёт 1-е место в 2 из 3 тестов AI Index и показывает 56% в SciCode — это сразу +10 п.п. к прежнему рекорду.
В агентных сценариях (когда модель действует как «умный исполнитель» в реальной среде) результат тоже уверенный:—> 2-е место в Terminal‑Bench Hard и Tau2-Bench Telecom. То есть с задачами уровня «запусти, проверь, исправь, повтори» модель справляется не только в синтетических примерах.
Мультимодальность
Gemini 3 Pro Preview — полноценная мультимодальная модель: она понимает текст, изображения, видео и аудио.
На сложном визуальном бенчмарке MMMU‑Pro (многошаговое рассуждение по картинкам и комбинации сигналов) модель показывает лучший результат среди всех участников.
Сейчас в рейтинге MMMU‑Pro у Google сразу 1-е, 3-е и 4-е места, а 2-е — у GPT-5.1, который добавили в таблицу на прошлой неделе.
Источник: artificialanalysis.ai
Для индустрии это очередной сигнал: топовые LLM уже не просто «болталки», а инструменты, которые держат факты, пишут код и работают как агенты в проде. В OTUS мы оборачиваем такие сдвиги в практические треки: на курсе «LLM Driven Development» разбираем, как встраивать модели в сервисы и строить вокруг них агентные сценарии, в «AI для разработчиков» — как использовать LLM в повседневной разработке.
Источник: habr.com