Не опять, а снова: в МФТИ разработали «прозрачный» детектор ИИ-текстов

Буквально вслед за американцами, команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет.

Авторы метода отмечают, что существующие системы детекции сгенерированного текста часто работают как «черные ящики» и не могут объяснить, на каких конкретно свойствах текста основано их решение. В результате, если детектор ошибается, то бывает очень сложно понять, почему именно это случилось и как избежать такой ошибки в будущем.

Чтобы не изобретать велосипед, исследователи решили заглянуть «под капот» нейросети и превратить ее внутренние состояния в набор четких и интерпретируемых характеристик текста. Для этого они использовали известную технику — разреженные автокодировщики (Sparse Autoencoders, SAE), позволяющие выделять признаки, отвечающие за определенный аспект текста: например, за сложность предложений или использование специфической лексики.

Люди, регулярно имеющие дело с текстами, сгенерированными ChatGPT, зачастую могут распознать такой текст по характерным чертам — например, неуместно сухому и формальному языку, чрезмерно длинным и “водянистым” вступлениям перед переходом к сути, повторяющимся формулировкам одной и той же мысли и низкой информационной плотности в целом. Однако большинство популярных детекторов сгенерированных текстов не показывают, в какой степени в тексте присутствуют эти и другие понятные человеку особенности, — объяснила Лаида Кушнарева, старший академический консультант в компании Huawei.

По ее словам, разработанный детектор на основе SAE позволяет автоматически раскладывать тексты на “атомарные” числовые признаки, многие из которых поддаются интерпретации в терминах, понятных человеку.

При этом детектор обходит все существующие решения на том наборе данных, который мы использовали. Кроме того, мы показали, что с помощью SAE можно обнаруживать и некоторые осознанные попытки скрыть факт генерации текста — например, преднамеренное добавление лишних пробелов,  артиклей или нестандартных символов с целью запутать детекторы, — добавила Кушнарева.

Исследователи надеются, что примененный ими новый подход создаст основу для разработки более интерпретируемых детекторов, которые смогут не просто выносить вердикт, но и предоставлять отчет о том, какие именно аномалии были найдены в тексте.

С работой, которая была принята на конференцию Findings of ACL 2025, можно ознакомиться в виде препринта на портале arXiv.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии