Тианле Цай, аспирант Принстонского университета, изучающий эффективность вывода в больших языковых моделях, получил доступ к библиотеке токенов GPT-4o и извлёк список из 100 самых длинных китайских токенов, которые ИИ использует для анализа и вывода подсказок на китайском языке. Ранее пользователи из КНР пожаловались, что GPT-4o выдаёт ответы со спамом и элементами порно.
Из 100 токенов только три кодировали информацию, используемую в повседневных беседах; остальные представляли собой слова и выражения, которые обычно употребляются в контексте азартных игр или порнографии. Самый длинный токен, состоящий из 10,5 китайских иероглифов, буквально означает «бесплатное японское порновидео для просмотра».
Цай разместил список токенов на GitHub.
Предполагается, что GPT-4o лучше предшественников справляется с многоязычными задачами. В частности, успехи достигнуты благодаря новому инструменту токенизации, который лучше сжимает тексты на неанглийских языках. Однако в случае с китайским языком новый токенизатор содержит непропорционально большое количество бессмысленных фраз. Эксперты говорят, что это, вероятно, связано с недостаточной очисткой и фильтрацией данных до обучения.
Поскольку эти токены не являются общепринятыми словами или фразами, чат-бот может не понять их значения. Исследователи смогли использовать это и заставить GPT-4o галлюцинировать или даже обойти цензуру OpenAI.
Всего в новом токенизаторе 200 тысяч токенов, и около 25% из них написаны не на английском языке, говорит Диди Дас, инвестор в Menlo Ventures. Он использовал языковые фильтры для подсчёта количества токенов на разных языках, а самыми популярными, помимо английского, являются русский, арабский и вьетнамский.
«На мой взгляд, основной эффект токенизатора заключается в том, что вы снижаете стоимость этих языков, а не в том, что качество этих языков резко возрастает», — уверен Дас. Сам он также говорит на хинди и бенгали, оценил самые длинные токены на этих языках. Они включают в себя такие слова, как «Нарендра» или «Пакистан», но также часто встречаются общеанглийские термины, такие как «премьер-министр», «университет» и «международный». При этом токены не демонстрируют проблем, связанных с китайскими.
«Моя рабочая теория заключается в том, что веб-сайты на хинди и бенгали очень примитивны. В основном, они содержат новостные статьи. На этих языках не так уж много спам-ботов и порносайтов», — говорит инвестор.
С ним соглашается и Цай, который напомнил, что языковая модель нередко сканирует спам при сборе обучающих данных, и требуются значительные усилия для очистки этой информации перед использованием. «Возможно, они не выполнили надлежащую очистку данных для китайского языка», — полагает аспирант.
Эти сообщения часто представляют собой рекламу порнографических видеороликов и веб-сайтов, посвященных азартным играм. Они через бот-фермы или законные сайты индексируются поисковыми системами. Например, Google проиндексировал одну страницу результатов поиска на веб-сайте Национального института здравоохранения США, и там был указан порносайт на китайском языке. Это же имя сайта также встречается как минимум в пяти китайских токенах в GPT-4o.
По словам Чжэнъяна Гэна, аспиранта компьютерных наук в Университете Карнеги-Меллона, такой проблемы не существовало с токенизатором предыдущего поколения и китайскими токенами, используемыми для GPT-3.5 и GPT-4. Там самые длинные китайские токены — это общие термины вроде «жизненных циклов» или «автогенерации».
Дас, который три года работал в команде Google Search, говорит, что распространённость спам-контента — известная проблема, и ее не так уж сложно исправить. Даже простые решения, такие как запрос автоматического перевода контента при обнаружении определенных ключевых слов, могут «обеспечить 60% успеха», добавляет он.
Пользователь в соцсети X между тем сообщил, что в корейских токенах наблюдается аналогичная распространённость порнографического и азартного контента.
Гэн попросил GPT-4o перевести некоторые длинные китайские токены на английский язык. Однако ИИ начал переводить слова, которые никогда не были включены в подсказки, что является типичным результатом галлюцинаций LLM.
Ему также удалось использовать те же токены для «джейлбрейка» GPT-4o, то есть заставить модель генерировать то, чего она не должна, например, подсказать, как изготовить бомбу. Гэн не поделился подробностями тестов с общественностью, но отмечает, что GPT-4o генерирует ответы построчно, а, когда почти доходит до конца, обнаруживает небезопасный контент и блокирует его показ пользователю.
Проблема заключается в том, что иногда токенизатор и реальная модель обучаются на разных наборах данных, и то, что преобладало в наборе данных токенизатора, по какой-то причине отсутствует в наборе данных LLM. В результате, хотя токенизатор подбирает определённые слова, которые он часто видит, модель недостаточно обучена им или не понимает их вообще, что вызывает галлюцинации.
Чтобы решить эту проблему, набор данных, используемый для обучения токенизатора, должен соответствовать набору данных для LLM. Если реальная модель прошла через фильтры безопасности для очистки порнографического или спам-контента, те же фильтры следует применить и к данным токенизатора. В реальности это иногда сложно сделать, поскольку обучение LLM занимает месяцы и предполагает постоянное совершенствование, при этом спам-контент отфильтровывается, тогда как обучение токенов обычно проводится на ранней стадии и может не включать тот же уровень фильтрации.
Задачу может усложнять и то, что результат будет включён в многоэтапные внутримодельные процессы и проявится в будущих итерациях. Например, пока невозможно публично протестировать видео- и аудиофункции GPT-4o, и неясно, как на них повлияют китайские токены. «Надёжность визуального ввода хуже, чем текстового в мультимодальных моделях», — говорит Гэн.
Ранее OpenAI представила GPT-4o, которая способна воспринимать и генерировать звук, изображение и текст. Модель будет доступна всем пользователям бесплатно. Также в ней улучшили работу с текстом не на английском языке. Теперь модель поддерживает 50 языков.
Источник: habr.com