Специалисты российской AI-компании Smart Engines представили две научные работы на ведущей международной конференции в области анализа и распознавания документов ICDAR-2024, проходившей с 30 августа по 4 сентября в Афинах.
International Conference on Document Analysis and Recognition (ICDAR) – главное международное мероприятие для ученых, занимающихся анализом и распознаванием документов. Конференция проходит с 1991 года, и в 2024-м она организуется в 18-й раз. Сотрудники Smart Engines регулярно выступают в рамках ICDAR, рассказывая про свои новые разработки, и в этом году ученые компании представили два доклада.
Один из них был посвящен методу исследования содержимого хрупких свитков с помощью ИИ без необходимости разворачивать их. Проблему анализа старых манускриптов с привлечением томографии ученые по всему миру пытаются решить более двадцати лет, предлагая разные подходы с машинным обучением. Российские исследователи применили неразрушающий метод рентгеновской томографии и алгоритмы машинного зрения. Объект, который нельзя разворачивать, помещается в томограф. Затем реконструируется цифровая копия документа, над которой и производятся все дальнейшие манипуляции.
Таким образом, ученым Smart Engines и ФИЦ ИУ РАН удалось создать первую полностью автоматическую систему виртуального разворачивания свитков, которая не требует вмешательства человека. Разработка позволит изучать тексты бумажных, берестяных и серебряных свитков и печатных книг, которые пострадали вследствие естественного старения, воздействия влажности или пожаров и хранятся в особых условиях.
Вторая работа, представленная на ICDAR-2024, касалась HED-MRZ (Hough Encoder for Detection) — разработанной учеными Smart Engines сверхлегкой модели глубокого обучения для обнаружения машиночитаемой зоны (MRZ). Для автоматизированных систем распознавания обнаружения MRZ имеет важное значение — особенно в задачах аутентификации и проверки личности владельцев документов. При этом нейросетевые модели должны не только демонстрировать высокое качество на сложных изображениях, но и иметь небольшой размер в силу ограниченного объема памяти встраиваемых устройств.
Специалистам компании за счет применения семантической сегментации с использованием прямых и транспонированных слоев быстрого преобразования Хафа удалось решить эту проблему и сократить количество обучаемых параметров и слоев модели. В результате нейросеть в 10 раз более компактная, нежели аналогичные системы прошлого поколения, и вдвое точнее извлекает данные из MRZ. Описанная в докладе технология уже применяется для распознавания машиночитаемых зон в программном продукте Smart ID Engine, который позволяет вводить паспортные данные в 20 раз быстрее и в 2 раза точнее квалифицированного оператора.
Smart Engines существует с 2015 года, и с тех пор ученые компании опубликовали более 300 научных статей в ведущих рецензируемых научных журналах, включая журналы первых квартилей Web of Science и Scopus, а также в журналах, индексируемых в RSCI. Научные работы Smart Engines представляются на крупнейших конференциях отрасли, а ученые патентуют свои технологии. У Smart Engines 26 российских и 9 американских патентов, а программные продукты компании активно используются в России и по всему миру.
Источник: habr.com