Раньше в Ancestry оцифровывали документы 9 месяцев. Теперь ИИ справляется за 9 дней

Сказать, что база данных Ancestry обширна, — значит не сказать ничего.

«Мы собрали более 65 млрд записей из 80 с лишним стран, — рассказал Шрирам Тьягараджан, технический директор и исполнительный вице‑президент компании по продуктам и технологиям, в интервью. — Чтобы вы представляли масштаб: это примерно 10 000 ТБ данных, которые мы используем, чтобы открывать нашим пользователям новые факты об их предках».

Основанная в 1983 году в штате Юта, компания Ancestry собирает исторические документы, помогая людям восстановить родословные.

В архив входят записи о рождении и смерти, браках и переписях, военные и земельные документы, сведения об иммиграции, газетные материалы. Кроме того, Ancestry предлагает и наборы для ДНК‑тестов, сотрудничая с такими учреждениями, как Национальное управление архивов и документации США, чтобы пополнять свою коллекцию.

Но у такого колоссального собрания есть и главная трудность: как всё это упорядочить. По словам Тьягараджана, компания стала активно использовать искусственный интеллект и машинное обучение, чтобы справиться с этой почти героической задачей.

Оптимизация с помощью компьютерного зрения

Когда в 2017 году Тьягараджан пришёл в команду Ancestry, компания только начинала экспериментировать с ИИ и машинным обучением. «Мы пытались найти способ быстро и эффективно оцифровывать материалы, которые получаем со всего мира», — вспоминает он.

Раньше процесс выглядел так: документы сканировали, затем передавали подрядчикам, которые вручную индексировали и заносили ключевые данные. После этого программа связывала людей, места и события между собой. «Лет пятнадцать‑двадцать назад, когда мы оцифровывали перепись 1940 года, нам понадобилось девять месяцев и расходы в десять раз выше нынешних», — говорит Тьягараджан.

Тогда команда Ancestry всерьёз задумалась о новых подходах. «Мы сказали себе: а почему бы не применить технологии компьютерного зрения, чтобы оцифровывать материалы автоматически, без ручного вмешательства? — рассказывает он. — И вот к 2021 году мы уже использовали собственные системы распознавания почерка на базе компьютерного зрения. В итоге путь, на который раньше уходило девять месяцев, сократился до девяти дней — и обошёлся в разы дешевле».

Позже Ancestry расширила эту технологию и на другие типы документов. Тем не менее, подчёркивает Тьягараджан, человек всё ещё проверяет результаты работы ИИ «по мере необходимости».

«Мы встроили автоматические фильтры и контрольные системы, которые серьёзно сокращают время проверки, — поясняет он. — Но всё равно стараемся быть чрезвычайно внимательными: то, что создаёт ИИ, должно основываться на правде, на фактах». Он добавляет, что «уровень автоматизации за последние годы вырос многократно». «В конце концов, люди приходят на нашу платформу за историями о своих предках. И наша цель — соединить их с найденными нами документами», — резюмирует он.

Ancestry тестирует новую функцию на базе ИИ

Помимо внедрения ИИ в рабочие процессы, компания запустила и несколько пользовательских сервисов, включая инструмент распознавания рукописного текста. В 2024 году Ancestry начала тестировать виртуального помощника на базе ИИ.

А недавно, сообщил Тьягараджан, компания приступила к бета‑тестированию функции Audio Stories — инструмента, который превращает документы в аудиорассказ.

«Наш ИИ умеет уловить контекст: напечатанный текст, изображения, рукописные заметки — и связать всё это в единую историю», — говорит он.

Хотя официальной даты запуска Audio Stories пока нет, в Ancestry уже думают о шагах дальше звука: «В будущем мы хотим объединить зрительные образы, звук, движение и видео — чтобы рассказывать истории во всей их полноте», — делится Тьягараджан.

Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”