В новом бенчмарке ни один ИИ не выставил правильно стрелки на часах

Брайан Мур запустил бенчмарк AI World Clocks, в котором девять ИИ разных поколений — от GPT-3.5 до Grok 4 и GPT-5 — пытаются создать в html часы с правильно показанным временем. К сожалению, задача оказалась не под силу даже лучшим моделям.

По условиям бенчмарка, каждую минуту модели отдают новый код, который заметно отличается от предыдущих версий. В некоторых случаях код попадает в задачу почти идеально, но ни одна модель не создает правильный циферблат каждую минуту.

Важно отметить, что в бенчмарке используется очень простой промпт, в котором не прописаны многие инструкции для моделей: модели говорят просто «сделай часы», но не объясняют, как именно считать углы стрелок, где у CSS ноль градусов и как проверить, что все встало на свои места. Добавляем сюда ограничение по токенам и в итоге ИИ честно рисует красивый циферблат, но не обязан ни перепроверять математику, ни править собственные ошибки.

Однако эксперимент показывает другую проблему — промпт в нем написан непрофессиональным человеческим языком. А именно так с ИИ работают многие «казуальные» пользователи — просят «нарисуй мне часы и покрасивее». В будущем разработчикам ИИ предстоит не только улучшать модели, но и дорабатывать интерфейс взаимодействия пользователя с ними, чтобы нейросеть сама различала неполные запросы, задавала вопросы и дорабатывала их.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”