Reddit подал иск в федеральный суд Манхэттена против ИИ-поисковика Perplexity, а также трех компаний, которые помогают ему собирать данные (SerpApi, Oxylabs и AWMProxy). В иске говорится, что Perplexity и партнеры занимались «промышленным» сбором контента, обходя технические ограничения и не заключая лицензионных соглашений, как это делают, по словам Reddit, например Google и OpenAI.
Чтобы подкрепить обвинения, в Reddit подстроили «ловушку». Компания создала тестовый пост, который был доступен только для краулера Google и не был виден обычным пользователям и внешним сборщикам данных. По утверждению Reddit, содержимое этого поста уже через несколько часов появилось в ответах Perplexity. Для Reddit это прямое доказательство того, что Perplexity (через сторонних парсеров результатов поиска Google) получает закрытые для нее данные. В тексте иска этот прием сравнивается с помеченными купюрами, которые иногда используют следователи.
Reddit утверждает, что направлял Perplexity письмо с требованием прекратить доступ к контенту еще в мае 2024 года, но с того момента количество ссылок Perplexity на материалы Reddit «выросло в 40 раз». По версии Reddit, Perplexity и подрядчики сознательно обходили технические барьеры, чтобы вытянуть тексты с площадки и встроить их в ответы для пользователей. Reddit называет это недобросовестной конкуренцией и попыткой получить ценную базу пользовательских обсуждений бесплатно — в то время как другим компаниям она продается по лицензии.
Perplexity публично отвергает обвинения. Компания говорит, что не обучает свои базовые модели напрямую на данных Reddit, а лишь «суммирует публично доступные обсуждения» и всегда дает ссылки на источники. Представители Perplexity прямо называют позицию Reddit «шантажом», а сам иск — продолжением переговоров Reddit о продаже доступа к своей базе крупным игрокам.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com