Брайан Мур запустил бенчмарк AI World Clocks, в котором девять ИИ разных поколений — от GPT-3.5 до Grok 4 и GPT-5 — пытаются создать в html часы с правильно показанным временем. К сожалению, задача оказалась не под силу даже лучшим моделям.
По условиям бенчмарка, каждую минуту модели отдают новый код, который заметно отличается от предыдущих версий. В некоторых случаях код попадает в задачу почти идеально, но ни одна модель не создает правильный циферблат каждую минуту.
Важно отметить, что в бенчмарке используется очень простой промпт, в котором не прописаны многие инструкции для моделей: модели говорят просто «сделай часы», но не объясняют, как именно считать углы стрелок, где у CSS ноль градусов и как проверить, что все встало на свои места. Добавляем сюда ограничение по токенам и в итоге ИИ честно рисует красивый циферблат, но не обязан ни перепроверять математику, ни править собственные ошибки.
Однако эксперимент показывает другую проблему — промпт в нем написан непрофессиональным человеческим языком. А именно так с ИИ работают многие «казуальные» пользователи — просят «нарисуй мне часы и покрасивее». В будущем разработчикам ИИ предстоит не только улучшать модели, но и дорабатывать интерфейс взаимодействия пользователя с ними, чтобы нейросеть сама различала неполные запросы, задавала вопросы и дорабатывала их.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com