В бенчмарке СlockBench на чтение времени с часов со стрелками лучшая модель (Gemini 2.5 Pro) справилась лишь с 13,3% вопросов, в то время как люди правильно ответили на 89,1% вопросов.
Всего в датасет бенчмарка включили 36 разных типов циферблатов, на каждом по 5 разных положений стрелок — получилось 180 комбинаций, к каждой из которых задавали по четыре вопроса. В первую очередь предлагалось прочитать время и отметить, валидно ли оно — в датасете были примеры, где положение часовой и минутной стрелок не согласовывалось между друг другом (например, если минутная стрелка показывает 20 минут, то часовая должна пройти треть пути). После определения времени давали задачи прибавить или вычесть X часов/минут/секунд, повернуть одну из стрелок на заданный угол и перевести время между часовыми поясами.
Помимо в целом слабых результатов, авторы бенчмарка отмечают, что медианная ошибка у моделей-лидеров составляла 1 час против всего 3 минут у людей. Однако в тех случаях, когда ИИ удавалось считать время, трудности с последующими вопросами возникали редко.
Бенчмарк показал, что чаще всего модели спотыкались на «непривычных» циферблатах — 24-часовых, с римскими цифрами, расположением цифр по кругу, наличием секундной стрелки, раскраски или рисунка на циферблате. Авторы предполагают, что задача требует рассуждений прямо в визуальном пространстве, а не в тексте, и текущие модели здесь слабы; нужно понять, решается ли это масштабированием или требуются новые подходы.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com