Из-за ошибки сканирования или перевода появился фальшивый научный термин; ИИ разносит его по всему интернету

Искусственный интеллект, прочёсывающий огромное количество информации, оказался заражён несуществующим научным термином. Этот набор слов уже попал в базы данных ИИ OpenAI и Anthropic. 

Речь идёт о «термине» «вегетативная электронная микроскопия» (vegetative electron microscopy). Как сообщает The Conversation, он мог появиться из статьи о клеточных стенках бактерий, опубликованной в журнале Bacteriological Reviews в 1959 году и позже оцифрованной. Расположение колонок в статье сбило с толку программное обеспечение оцифровки, которое смешало слово vegetative из одной колонки со словом electron из другой. 

Ещё одна теория его возникновения отсылает к ошибке перевода. Фраза vegetative electron microscopy появилась в двух научных статьях из Ирана (в подписях и аннотациях на английском языке) в 2017 и 2019 году. Как поясняет Retraction Watch, этому поспособствовала ошибка перевода с языка фарси: слова «вегетативный» и «сканирование» отличаются в ​​персидской письменности одной точкой, а сканирующая электронная микроскопия — вполне реальная вещь. Упущенной точки, как считают исследователи, вполне может быть достаточно, чтобы появился ошибочный термин.

На сегодняшний день «вегетативная электронная микроскопия» появляется в 22 статьях. Одну из них авторам пришлось отозвать из журнала Springer Nature, а для второй было выпущено исправление.

В Retraction Watch в качестве вероятного источника заражения нейросетей «вегетативной электронной микроскопией» называют объёмный датасет CommonCrawl на более чем 250 млн веб-страниц и петабайты данных. По данным исследователей, многие модели, если предложить им отрывки из научных статей, бодро продолжают их несуществующим термином. 

«Мы обнаружили, что ошибка сохраняется в новых моделях ИИ, включая GPT-4o и Claude 3.5 от Anthropic. Это говорит о том, что бессмысленный термин теперь может быть навсегда встроен в базы знаний ИИ», — указывают исследователи.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии