НИЦ «Курчатовский институт» и МФТИ разработали нейросеть для поиска научных статей
Специалисты НИЦ «Курчатовский институт» и МФТИ разработали новую систему семантического поиска научных публикаций. Эта система использует информацию о внешнем цитировании и нейросетевые модели, что позволит учёным находить необходимые материалы в огромных базах данных. Учитывая, как быстро растёт объем научной информации, такой инструмент станет настоящей находкой для исследователей.
Сегодня для поиска научных статей используются не только текстовые запросы, но и сложные алгоритмы. Популярные системы, такие как Google Scholar и Scopus, анализируют не только ключевые слова, но и то, как статьи ссылаются друг на друга. Однако разработанная система пошла дальше — она предлагает новый подход, который основан на кратких описаниях результатов научных работ. Дарья Доровских, лаборант из Курчатовского института, объяснила, что для обучения нейросетевой модели использовалась база данных PubMed Central с 7,6 миллиона статей по биомедицине.
Созданный прототип не только определяет семантический контекст, но и находит статьи по коротким описаниям, даже если они не совпадают с ключевыми словами запроса. Чтобы сделать использование системы более удобным, разработан веб-интерфейс на Python с библиотеками Flask и React. Протестировав систему на разных запросах, учёные обнаружили, что новая модель на основе BERT работает быстрее и точнее, чем традиционные методы. По словам исследователей, прототип можно доработать, чтобы лучше соответствовать нуждам различных научных сфер.
Источник: www.ferra.ru