Разработан сервис обезличивания табличных данных для безопасного использования в ИИ-системах

Институт искусственного интеллекта и цифровых наук ФКН ВШЭ разработал сервис обезличивания табличных данных, предназначенный для подготовки корпоративных данных к использованию в аналитических и ИИ-сервисах.

Решение позволяет выявлять персональные данные в структурированных наборах, применять к ним воспроизводимые правила обезличивания и формировать артефакты, необходимые для контроля качества, аудита и последующего использования данных в защищенных контурах.

Разработка ориентирована на одну из ключевых проблем внедрения искусственного интеллекта в организациях: реальные данные необходимы для обучения, тестирования и мониторинга моделей, но их прямое использование часто связано с рисками раскрытия персональных данных. Особенно остро эта проблема возникает при работе с данными из корпоративных информационных систем, где сведения о пользователях, сотрудниках, обучающихся или клиентах представлены в виде связанных таблиц, идентификаторов и атрибутов.

Сервис НИУ ВШЭ решает эту задачу за счет сочетания правил обработки, реестра замен и воспроизводимой модели обезличивания. Для одинаковых входных данных система формирует предсказуемый результат, что важно для повторяемости экспериментов, проверки качества данных и последующего аудита. Такой подход позволяет сохранить структуру набора данных и его пригодность для аналитических задач и ИИ-сценариев.

Решение разрабатывается с учетом требований российского законодательства о персональных данных и требований к обезличиванию персональных данных. В архитектуре предусмотрены раздельное хранение исходных данных и артефактов обработки, управление правилами замены, разграничение доступа, контроль целостности и ведение реестра замен. Эти механизмы позволяют использовать сервис как часть управляемого жизненного цикла данных для ИИ.

В настоящее время сервис используется в составе платформы SmartMLOps НИУ ВШЭ для обработки данных корпоративных информационных систем университета. В числе сценариев применения — подготовка данных для задач аналитики, тестирования и эксплуатации ИИ-сервисов. Разработка также может быть адаптирована для закрытых контуров организаций, работающих с чувствительными наборами данных, включая образовательные, медицинские, промышленные, финансовые и государственные организации.

Отдельное направление развития проекта — версия для неструктурированных данных: текстовых документов, обращений, договоров и иных материалов, в которых персональные данные встречаются в свободной форме. Эта версия находится в разработке и проходит опытную эксплуатацию. В ней предполагается использовать комбинацию правил, NLP-инструментов (инструментов обработки естественного языка) и моделей распознавания сущностей для выявления персональных данных в текстах с учетом контекста.

«Для ИИ-проектов недостаточно просто иметь доступ к данным. Необходимо уметь безопасно готовить данные так, чтобы они сохраняли аналитическую ценность, но не раскрывали персональные сведения. Наш сервис решает именно эту инженерную задачу: он встраивает обезличивание в управляемый процесс подготовки данных для ИИ», — отметил Салех Хади, руководитель команды проекта, начальник отдела прикладных технологических решений Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ.

Права на ключевые компоненты разработки зарегистрированы. Команда рассматривает дальнейшее развитие сервиса как внутреннего инструмента НИУ ВШЭ, а также как решения для внедрения в закрытых контурах организаций, которым требуется подготовка данных для ИИ при соблюдении требований к защите персональных данных. Мы подсели на цифрового паразита QR-код. От финтех-прорыва к нишевому инструменту Матрица маркетплейсов. Как бороться с галлюцинациями алгоритмов

Источник: www.it-world.ru

0 0 голоса

Рейтинг новости