Команда Google DeepMind представила новую генеративную модель — Aeneas. Это невероятный по возможностям инструмент для историков и археологов. Обученная на сотнях тысяч латинских текстах, Aeneas не просто восстановит утраченные фрагменты обнаруженных надписей — она расскажет их историю и происхождение, а также примерную датировку.
Aeneas помогает определить географическое происхождение повреждённой надписи — она с высокой точностью укажет на одну из 62 провинций древнеримской империи, где эта надпись была сделана. Кроме датирования надписи, важным будет контекст, который ИИ разъяснит в понятной форме, что со временем наверняка найдёт своё выражение в исторических чат-ботах для любителей истории и обычных граждан.
Для обучения модели был создан обширный набор данных — Latin Epigraphic Dataset (LED), включающий более 176 000 латинских надписей из подборки наиболее полных научных источников. Для обработки текстового ввода модель использует трансформерный декодер, а также специализированные сети для восстановления утраченных символов и датировки текстов.
Географическое определение происхождения надписей осуществляется с учётом как текста, так и визуальной информации. Aeneas способен за секунды находить текстовые и контекстные параллели среди тысяч надписей, что значительно ускоряет работу историков.
Проверка модели на практике показала, что Aeneas восстанавливает повреждённые надписи с точностью 73%, если промежутки не превышают десяти потерянных символов. Этот показатель снижается до 58% только в том случае, если длина восстановления неизвестна, что само по себе невероятно сложная задача. Благодаря использованию визуальных данных модель может отнести одну из древнеримских надписей к 62 провинциям с точностью 72%. Для датировки Aeneas помещает текст с интервалом в 13 лет от предоставленных историками дат.
Модель обладает рядом важных возможностей. Она находит параллели, анализируя большое количество латинских надписей. Это помогает выявлять тексты с похожими выражениями, синтаксисом, стандартными формулами или происхождением. Такие находки позволяют историкам лучше понять контекст, в котором были созданы надписи. Модель также анализирует текстовую и визуальную информацию, объединяя их в единое целое. Она способна восстанавливать пропущенные фрагменты любой длины, что делает её незаменимым инструментом для работы с сильно повреждёнными артефактами.
Интерактивная версия Aeneas доступна бесплатно на сайте predictingthepast.com, а код и набор данных открыты для исследователей, что способствует дальнейшему совершенствованию модели.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник: habr.com