Представлен бенчмарк, в котором ИИ разгромно проигрывают человеку

В бенчмарке СlockBench на чтение времени с часов со стрелками лучшая модель (Gemini 2.5 Pro) справилась лишь с 13,3% вопросов, в то время как люди правильно ответили на 89,1% вопросов.

Всего в датасет бенчмарка включили 36 разных типов циферблатов, на каждом по 5 разных положений стрелок — получилось 180 комбинаций, к каждой из которых задавали по четыре вопроса. В первую очередь предлагалось прочитать время и отметить, валидно ли оно — в датасете были примеры, где положение часовой и минутной стрелок не согласовывалось между друг другом (например, если минутная стрелка показывает 20 минут, то часовая должна пройти треть пути). После определения времени давали задачи прибавить или вычесть X часов/минут/секунд, повернуть одну из стрелок на заданный угол и перевести время между часовыми поясами.

Помимо в целом слабых результатов, авторы бенчмарка отмечают, что медианная ошибка у моделей-лидеров составляла 1 час против всего 3 минут у людей. Однако в тех случаях, когда ИИ удавалось считать время, трудности с последующими вопросами возникали редко.

Бенчмарк показал, что чаще всего модели спотыкались на «непривычных» циферблатах — 24-часовых, с римскими цифрами, расположением цифр по кругу, наличием секундной стрелки, раскраски или рисунка на циферблате. Авторы предполагают, что задача требует рассуждений прямо в визуальном пространстве, а не в тексте, и текущие модели здесь слабы; нужно понять, решается ли это масштабированием или требуются новые подходы.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”