Разработка считывает оскорбления, которые обидчик хорошо спрятал. По мнению создателей, это поможет сделать сеть более безопасным и дружелюбным местом.
Люди, оставляющие токсичные сообщения в интернете, стали маскировать свои слова, чтобы обойти автоматические фильтры модерации. Агрессор может заменить буквы цифрами, например, написать «Y0u’re st00pid» вместо «You’re stupid» («Ты глупый»). Другая тактика заключается в объединении слов в одно. Также добавляются пробелы или дополнительные символы, как в слове «h@te» («ненависть»). Традиционные инструменты нередко игнорируют такие сообщения. Это может навредить пользователям, особенно уязвимым группам. Новая технология борется со скрытой токсичностью, пишет Phys.org.
Алгоритм работает в связке с существующей системой модерации. Он действует как интеллектуальный помощник, подготавливая контент для более глубокой и точной оценки путем перестройки и уточнения комментария. Процесс включает три этапа. Сначала инструмент упрощает текст. Из него удаляются лишние элементы, такие как чрезмерная пунктуация или бессмысленные символы, чтобы сделать его понятным и готовым к анализу. Затем сообщение стандартизируется. Исправляются ошибки в грамматике, в том числе преднамеренные. Например, ИИ заменит «h8te» на «hate». Наконец, помощник ищет повторяющиеся шаблоны, выявляя часто используемые приемы маскировки негативного содержания. Все это делает вредоносный контент видимым для традиционных фильтров.
Источник: hi-tech.mail.ru