Вчера, 5 апреля, информационное издание The Verge со ссылкой на 404Media сообщило, что в каталог Google Books попало несколько книг, которые, вероятно, были написаны искусственным интеллектом или при его помощи. Определить такого рода литературу на самом деле очень просто — журналисты издания просто провели поиск по библиотеке Google Books по ключевой фразе «as of my last knowledge update» («на момент последнего обновления моих знаний»), которую очень часто в своей «речи» используют чат-боты вроде ChatGPT. В Google Books можно искать конкретные предложения или термины — система в итоге отображает произведения с искомым контентом, что и позволило специалистам обнаружить ИИ-книги.
Стоит отметить, что на первых страницах поисковой выдачи в большинстве своём были представлены произведения об искусственном интеллекте, что объясняет наличие ключевой фразы. Но среди результатов поиска были и книги, которые никак не связаны с технологиями — складывается ощущение, что они были написаны чат-ботом. Например, в книге «Bears, Bulls, and Wolves: Stock Trading for the Twenty-Year-Old» («Медведи, быки и волки: Фондовая торговля для двадцатилетних») информация подана таким образом, как будто кто-то «прочесал» Википедию в поисках данных о событиях в финансовом мире, после чего подал это как своё произведение. И в этой книге содержалась ключевая фраза, конечно же.
Также исследователи отметили, что во многих книгах, содержащих искомую фразу, содержится информация исключительно до 2021 года. Это объясняется тем, что именно в этот период времени модели искусственного интеллекта последний раз получали обучающие данные — соответственно, события после 2021 года нейросеть просто не знает и не может писать об этом. И, к сожалению, проблема не только в том, что рынок цифровой литературы постепенно наполняется далеко не лучшей литературой, созданной на базе шаблонных «мыслей» чат-бота. Беда ещё и в том, что библиотека Google Books используется в исследовательской программе Ngram.
Это специальный исследовательский инструмент, который индексирует литературу в библиотеке Google, после чего анализирует полученные данные и позволяет изучить то, как меняется язык с течением времени. В последний раз программа Ngram обновляла данные в 2019 году — эту информацию используют учёные, лингвисты и не только. И когда в следующий раз базу программы обновят, туда попадут и те самые «мусорные» книги, сгенерированные искусственным интеллектом, что может в том числе повлиять на процесс изучения языка в мире.
Источник: trashbox.ru