Исследователи разрабатывают более компактный и интерпретируемый метод токенизации изображений

Группа исследователей из Гонконга и Великобритании представила новый метод преобразования изображений в цифровые представления, также известные как токены, с использованием иерархической структуры, предназначенной для более компактного и точного захвата важной визуальной информации.

В отличие от традиционных подходов, которые равномерно распределяют информацию об изображении по всем токенам, этот метод упорядочивает токены иерархически. Самые ранние токены кодируют высокоуровневые визуальные особенности, такие как широкие формы и структурные элементы, в то время как последующие токены добавляют все более мелкие детали, пока не будет представлено полное изображение.

Метод токенизации отдает приоритет семантическому содержанию, при этом начальные токены кодируют наиболее значимую визуальную информацию.

Эта стратегия опирается на основную идею анализа главных компонентов, статистического метода, в котором данные разбиваются на компоненты, которые объясняют дисперсию в порядке убывания. Исследователи применили аналогичный принцип к токенизации изображений, что привело к представлению, которое является как компактным, так и интерпретируемым.

В отличие от традиционных подходов, эта система выдает согласованные результаты с минимальным количеством токенов, постепенно совершенствуясь от базовых форм с использованием одного токена до подробных реконструкций с использованием 256 токенов

Одним из ключевых нововведений является отделение семантического содержания от низкоуровневых деталей изображения. В предыдущих методах эти типы информации часто были запутанными, что затрудняло интерпретацию изученных представлений. Новый метод решает эту проблему с помощью декодера на основе диффузии, который постепенно реконструирует изображение, начиная с грубых форм и переходя к тонким текстурам. Это позволяет токенам сосредоточиться на семантически значимой информации, обрабатывая подробные текстуры отдельно.

По словам исследователей, этот иерархический метод улучшает качество реконструкции изображения — сходство между исходным изображением и его токенизированной версией — почти на 10 процентов по сравнению с предыдущими передовыми технологиями.

Он также достигает сопоставимых результатов, используя значительно меньше токенов. В задачах нисходящего потока, таких как классификация изображений, метод превзошел более ранние подходы, которые полагались на традиционную токенизацию.

По мере увеличения количества токенов слева направо реконструкция изображения становится более детальной, хотя новый метод обеспечивает более высокое качество при меньшем количестве токенов

Исследователи отмечают, что иерархическая структура отражает то, как человеческий мозг обрабатывает визуальный ввод — от грубых контуров до все более подробных черт. Согласно исследованию, это соответствие перцептивным механизмам может открыть новые направления для разработки систем AI для анализа и генерации изображений, которые больше соответствуют визуальному познанию человека.

Новый метод может помочь сделать системы AI более простыми для понимания. Отделяя семантическое содержание от визуальных деталей, изученные представления становятся более интерпретируемыми, что может упростить объяснение того, как система приходит к своим решениям. В то же время компактная структура обеспечивает более быструю обработку и снижает требования к хранению.

Исследователи называют этот подход важным шагом к обработке изображений, которая более тесно связана с человеческим восприятием, но они также видят возможности для улучшения. Дальнейшая работа будет сосредоточена на совершенствовании техники и ее применении к более широкому кругу задач.

Токенизация остается основным компонентом как в моделях изображений, так и в языковых моделях. Также появляются новые стратегии цифрового кодирования текстовых сегментов, и некоторые исследователи полагают, что они могут привести к более продвинутым языковым моделям в будущем.

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”