Учёные создали поисковую систему по древнерусским рукописям на основе ИИ

Специалисты из НИЯУ МИФИ и Института русского языка им. В.В. Виноградова создали программный комплекс, позволяющий производить поиск по текстам, созданным на рукописном старославянском языке. Решение основано на алгоритмах искусственного интеллекта (ИИ).

Как рассказал руководитель проекта, доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов, для работы с текстами создан сетевой ресурс «Рукописное наследие Древней Руси». Запросы на ресурсе оформляются как в обычных интернет‑поисковиках. В поисковую базу включены оцифрованные рукописи из российских библиотек и музеев. На текущий момент база состоит из 245 миней.

Минеи представляют собой повсеместно распространённый вид древнерусских книг. В этих книгах повторяются одни и те же сюжеты, однако изучение и сравнение похожих текстов даст возможность понять, при каких обстоятельствах происходили изменения в нашем языке, культуре и мировосприятии. Например, можно увидеть, как по‑разному трактуется одна и та же история в разные эпохи. Или как изменяется значение слов с течением времени. В каждом храме по одной такой книге на каждый месяц и несколько годовых миней. Объём этих книг составляет 500 страниц.

По словам учёных, обработка древних текстов состоит из трёх процессов. Первым идёт сегментирование страницы с вычленением отдельных элементов и символов. Вторым идёт классификация объектов и обучение нейросети. При обучении нейросети возникает ряд трудностей. Часть из них связана с различием в начертании одинаковых знаков в разных рукописях, а часть — с особенностями морфологии и синтаксиса старославянского языка.

По словам Дмитрия Демидова, доходит до 150 вариантов одной буквы, потому что несмотря на принятые каноны и шрифты (устав и полуустав), каждый писец вносил в их написание свои стилистические особенности. Кроме того, старинный алфавит включал 46 букв вместо 33 современных. Вообще древнерусское письмо характеризуется наличием сокращений, надстрочных элементов, отсутствием отступов между словами и знаков препинания, объяснил учёный.

Учёные наращивают точность распознавания рукописей, что включает в себя снижение ошибок сегментации и классификации. Оцифрованные древние документы, размещённые на доступном интернет‑ресурсе, дают возможность исследователям проверить корректность распознавания и в случае ошибки и сообщить об этом разработчикам.

Алексей Овчаренко

Доцент кафедры русского языка и лингвокультурологии Института русского языка (ИРЯ) Российского университета Дружбы народов имени П. Лумумбы

«Славянские минеи как минимум дважды подверглись масштабному редактированию — в связи с распространением Иерусалимского устава в XIV веке и в результате Никоновской книжной справы в XVII веке. Если можно проследить по рукописным памятникам эволюцию языка и отделить написанное древними авторами от поздних цитат, это позволит глубже понять отечественную историю».

Доцент кафедры русского языка и лингвокультурологии Института русского языка (ИРЯ) Российского университета Дружбы народов имени П. Лумумбы Алексей Овчаренко рассказал, что алгоритмы машинного обучения основаны на вероятностях. Поэтому распознавание символов старославянского языка на начальном этапе должно проверяться экспертами. В дальнейшем искусственному интеллекту можно предоставить большую свободу.

Сейчас поисковый интерфейс созданного сервиса позволяет вводить запросы на древнерусском языке отдельными словами и целыми фразами. Для удобства пользователей разработчики внедрили онлайн‑клавиатуру со старославянскими символами.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”