Исследователи использовали видео c YouTube, чтобы показать, как модели ИИ справляются с неожиданными ситуациями

Видео с провалами на YouTube показывают, что у ведущих моделей искусственного интеллекта есть серьёзный недостаток: они не справляются с неожиданными ситуациями и редко пересматривают свои первоначальные оценки. Даже такие продвинутые системы, как GPT-4o, спотыкаются на простых сюжетных поворотах.

Исследователи из Университета Британской Колумбии, Института искусственного интеллекта Vector и Наньянского технологического университета протестировали лучшие модели искусственного интеллекта на более чем 1600 неудачных видео с YouTube из набора данных Oops!

Команда создала новый эталонный тест под названием BlackSwanSuite, чтобы проверить, насколько хорошо эти системы справляются с непредвиденными событиями. Как и людей, модели ИИ сбивают с толку неожиданные моменты, но, в отличие от людей, они отказываются менять своё мнение даже после того, как видят, что произошло на самом деле.

Один из примеров: мужчина размахивает подушкой возле рождественской ёлки. ИИ предполагает, что он целится в кого-то поблизости. На самом деле подушка сбивает с ёлки украшения, которые затем падают на женщину. Даже после просмотра всего видео ИИ остаётся при своём первоначальном неверном предположении.

Видеоролики охватывают широкий спектр тем, среди которых чаще всего встречаются дорожно-транспортные происшествия (24%), несчастные случаи с детьми (24%) и несчастные случаи в бассейне (16%). Все их объединяет непредсказуемый поворот событий, который часто ускользает от внимания даже людей.

Три типа задач

Каждое видео разделено на три сегмента: установка, сюрприз и последствия. Тест ставит перед LLM разные задачи на каждом этапе. В задаче «Прогнозист» ИИ видит только начало видео и пытается предсказать, что будет дальше. Задача «Детектив» показывает только начало и конец, прося ИИ объяснить, что произошло между ними. В задании «Репортёр» ИИ получает полное видео и проверяется, может ли он скорректировать свои предположения после просмотра всей истории.

Тест включает 15 469 вопросов по всем трём заданиям, основанным на видео

Тестированию подверглись как закрытые модели, такие как GPT-4o и Gemini 1.5 Pro, так и системы с открытым исходным кодом, такие как LLaVA-Video, VILA, VideoChat2 и VideoLLaMA 2. Результаты выявили явные недостатки. В детективном задании GPT-4o дал правильный ответ только в 65% случаев. Для сравнения: люди справились на 90%.

В таблице сравниваются закрытые и открытые модели с результатами людей, выполнявших задания на детекцию и репортёрство с несколькими вариантами ответов и ответами «да» или «нет»

Разрыв увеличился ещё больше, когда моделям пришлось пересмотреть свои первоначальные предположения. Когда GPT-4o попросили пересмотреть свои прогнозы после просмотра всего видео, точность составила всего 60%, что на 32% ниже, чем у людей (92%). Системы, как правило, придерживались своего первоначального мнения, игнорируя новые данные.

Другие модели, такие как Gemini 1.5 Pro и LLaVA-Video, продемонстрировали ту же закономерность. По словам исследователей, производительность резко снижалась при воспроизведении видео, которые даже людям было сложно понять с первого раза.

Мусоровозы же не сбрасывают деревья, не так ли?

Корень проблемы кроется в том, как обучаются эти модели ИИ. Они учатся, выявляя закономерности в миллионах видео, и ожидают, что эти закономерности будут повторяться. Поэтому, когда мусоровоз сбрасывает дерево вместо того, чтобы забрать мусор, ИИ сбивается с толку — у него нет шаблона для такого сценария.

GPT-4o следует своим первоначальным предположениям и выбирает неправильный ответ

Чтобы выявить проблему, команда попыталась заменить видеовосприятие ИИ подробными описаниями сцен, написанными человеком. Это повысило производительность LLaVA-Video на 6,4%. Добавление дополнительных пояснений повысило производительность ещё на 3,6%, в результате чего общий прирост составил 10%.

Как ни странно, это лишь подчёркивает слабость моделей: если ИИ демонстрирует высокую эффективность только тогда, когда люди берут на себя большую часть работы по восприятию, то он не может «видеть» и «понимать» до начала реального рассуждения.

Люди, напротив, быстро пересматривают свои предположения при появлении новой информации. Современным моделям ИИ не хватает такой гибкости мышления.

Этот недостаток может иметь серьёзные последствия для реальных приложений, таких как беспилотные автомобили и автономные системы. Жизнь полна сюрпризов: дети выбегают на дорогу, с грузовиков падают предметы, а другие водители совершают неожиданные манёвры.

Исследовательская группа разместила эталонный тест на GitHub и Hugging Face. Они надеются, что другие пользователи будут использовать его для тестирования и улучшения собственных моделей ИИ. Пока ведущие системы не справляются с простыми видео с ошибками, они не готовы к непредсказуемости реального мира.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии