У большинства моделей ИИ обнаружили «проблемы с воображением»

Ученые из США и Канады проверили, насколько хорошо понимают визуальную информацию самые популярные большие языковые модели (LLM) с функциями зрения (VLM). В работе, опубликованной на arXiv, ученые протестировали GPT-4o, Gemini-1.5 Pro, Claude-3 Sonnet и Claude-3.5 Sonnet.

Возможность обрабатывать визуальные данные появилась у LLM совсем недавно. Однако ученые выяснили, что пока эта функция далека от совершенства. Авторы исследования сравнивают LLM с системой «камера-мозг». Камера (система распознавания объектов) у современных моделей развита хорошо, а вот «мозг» (способность обрабатывать информацию) пока отстает.

Например, LLM легко распознают на картинке Тадж-Махал, но с вопросами о деталях вроде количества держащихся за руки детей модель может не справиться. Языковые модели не умеют считать, их обучают распознавать образы. Поэтому, если LLM не показывали заранее картинку с таким же количеством детей, она не сможет ответить на вопрос.

Ученые предложили моделям выполнить простые задачи вроде подсчета накладывающихся друг на друга кругов или соединенных колец.

Все LLM плохо справились с заданиями, показывая хорошие результаты только на знакомых изображениях. Например, подсчитать количество соединенных колец свыше пяти оказалось сложным, так как кроме олимпийских колец, таких примеров модели, видимо, не видели.

Источник: www.ferra.ru

0 0 голоса

Рейтинг новости

24644

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”