Буквально вслед за американцами, команда исследователей из Сколтеха, МФТИ, Института искусственного интеллекта AIRI и других научных центров разработала метод, позволяющий не просто отличать тексты, написанные человеком, от сгенерированных нейросетью, но и понимать, по каким именно признакам классификатор принимает решение о том, является ли текст генерацией или нет.
Авторы метода отмечают, что существующие системы детекции сгенерированного текста часто работают как «черные ящики» и не могут объяснить, на каких конкретно свойствах текста основано их решение. В результате, если детектор ошибается, то бывает очень сложно понять, почему именно это случилось и как избежать такой ошибки в будущем.
Чтобы не изобретать велосипед, исследователи решили заглянуть «под капот» нейросети и превратить ее внутренние состояния в набор четких и интерпретируемых характеристик текста. Для этого они использовали известную технику — разреженные автокодировщики (Sparse Autoencoders, SAE), позволяющие выделять признаки, отвечающие за определенный аспект текста: например, за сложность предложений или использование специфической лексики.
Люди, регулярно имеющие дело с текстами, сгенерированными ChatGPT, зачастую могут распознать такой текст по характерным чертам — например, неуместно сухому и формальному языку, чрезмерно длинным и “водянистым” вступлениям перед переходом к сути, повторяющимся формулировкам одной и той же мысли и низкой информационной плотности в целом. Однако большинство популярных детекторов сгенерированных текстов не показывают, в какой степени в тексте присутствуют эти и другие понятные человеку особенности, — объяснила Лаида Кушнарева, старший академический консультант в компании Huawei.
По ее словам, разработанный детектор на основе SAE позволяет автоматически раскладывать тексты на “атомарные” числовые признаки, многие из которых поддаются интерпретации в терминах, понятных человеку.
При этом детектор обходит все существующие решения на том наборе данных, который мы использовали. Кроме того, мы показали, что с помощью SAE можно обнаруживать и некоторые осознанные попытки скрыть факт генерации текста — например, преднамеренное добавление лишних пробелов, артиклей или нестандартных символов с целью запутать детекторы, — добавила Кушнарева.
Исследователи надеются, что примененный ими новый подход создаст основу для разработки более интерпретируемых детекторов, которые смогут не просто выносить вердикт, но и предоставлять отчет о том, какие именно аномалии были найдены в тексте.
С работой, которая была принята на конференцию Findings of ACL 2025, можно ознакомиться в виде препринта на портале arXiv.
Источник: habr.com