Исследователи выпустили визуальный бенчмарк ClockBench, который оценивает навыки моделей машинного обучения пользоваться аналоговыми часами. Лучше всего с задачей справляется Gemini 2.5 Pro. Модель правильно отвечает на 13,3% вопросов.
Бенчмарк состоит из 180 изображений аналоговых часов (36 циферблатов × 5 образцов). К каждому изображению есть по четыре вопроса. Например, модели просят определить время, сложить или вычесть определённый промежуток из текущего времени, перевести одну из стрелок или назвать время в другом часовом поясе, исходя из текущего.
Для оценки качества ответов моделей разработчики отталкиваются от результатов человека. Люди в бенчмарке набирают 89,1% правильных ответов. Результаты моделей следующие:
Модель
Результат
Разработчик
Gemini 2.5 Pro
13,3%
o3 Pro
13,3%
OpenAI
Gemini 2.5 Flash
10,5%
o3 High
9,1%
OpenAI
GPT-5 High
8,4%
OpenAI
GPT-5 Mini
5,6%
OpenAI
Claude Opus 4.1
5,6%
Anthropic
Qwen 2.5-VL-72B
4,9%
Alibaba
Claude Sonnet 4
4,2%
Anthropic
Mistral Medium 3.1
2,8%
Mistral
GPT-4o
2,1%
OpenAI
GPT-5 Nano
2,1%
OpenAI
Grok 4
0,7%
xAI
На GitHub авторы бенчмарка опубликовали 10 примеров тестовых изображений. Полностью датасет не выкладывают, чтобы модели не обучили проходить бенчмарк.
Источник: habr.com