Вышел ClockBench — визуальный бенчмарк для оценки умения моделей пользоваться аналоговыми часами

Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.

Бенчмарк состоит из 180 изображений аналоговых часов (36 циферблатов × 5 образцов). К каждому изображению есть по четыре вопроса. Например, модели просят определить время, сложить или вычесть определённый промежуток из текущего времени, перевести одну из стрелок или назвать время в другом часовом поясе, исходя из текущего.

Для оценки качества ответов моделей разработчики отталкиваются от результатов человека. Люди в бенчмарке набирают 89,1% правильных ответов. Результаты моделей следующие:

Модель 

Результат

Разработчик

Gemini 2.5 Pro

13,3%

Google

o3 Pro

13,3%

OpenAI

Gemini 2.5 Flash

10,5%

Google

o3 High

9,1%

OpenAI

GPT-5 High

8,4%

OpenAI

GPT-5 Mini

5,6%

OpenAI

Claude Opus 4.1

5,6%

Anthropic

Qwen 2.5-VL-72B

4,9%

Alibaba

Claude Sonnet 4

4,2%

Anthropic

Mistral Medium 3.1

2,8%

Mistral

GPT-4o

2,1%

OpenAI

GPT-5 Nano

2,1%

OpenAI

Grok 4

0,7%

xAI

На GitHub авторы бенчмарка опубликовали 10 примеров тестовых изображений. Полностью датасет не выкладывают, чтобы модели не обучили проходить бенчмарк.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии