Ученые применили методы искусственного интеллекта и машинного обучения для анализа эволюции 22 человеческих языков. Рассказываем, какие общие закономерности удалось выявить и как закон Тейлора применим к лингвистике.
Международная команда специалистов из Фуданьского, Гарвардского и Стоуни-Брукского университетов провела масштабное исследование эволюции 22 человеческих языков. В работе, опубликованной в журнале Proceedings of the Royal Society B Biological Sciences, ученые применили современные методы искусственного интеллекта, статистики и обработки естественного языка для анализа огромных массивов лингвистических данных.
В основе исследования лежали векторные представления слов — числовые модели, которые отображают каждое слово в многомерном семантическом пространстве. Такой подход позволил математически сопоставить значения слов и выявить скрытые закономерности их развития.
«Мы объединили лингвистические данные, восходящие к Средневековью, с методами пространственной статистики и современными инструментами машинного обучения», — комментирует один из авторов исследования Сергей Верстюк.
Анализ показал, что во всех исследованных языках существуют общие статистические структуры. Например, высокочастотные слова («популярные») склонны группироваться вместе, формируя особые области в семантическом пространстве. Кроме того, словарный запас организован иерархически, а новые слова часто появляются всплесками, что напоминает процессы биологической эволюции. Интересно, что для описания распределения слов в языках оказался применим так называемый закон Тейлора — математическая зависимость, ранее обнаруженная в экологии и биологии.
Источник: hi-tech.mail.ru