19 июня Ассоциация больших данных и HFLabs впервые представили результаты тестирования модели оценки рисков повторной идентификации с использованием продукта для обезличивания данных «Маскировщик». Как он работает и что из себя представляет, рассказывали здесь.
При тестировании специалисты-методологи Ассоциации больших данных смоделировали кибератаки с целью получения персональной информации из обезличенных наборов данных, подготовленных с помощью «Маскировщика» для кейсов «Оценка оттока банковских клиентов (Churn Rate)» и «Маркетинговая атрибуция на независимых наборах». По результатам атак был осуществлен расчет рисков повторной идентификации, а также подготовлены рекомендации по адаптации параметров маскирования.
«При обработке обезличенных данных мы оцениваем вероятность успешной атаки на них, в результате которой может быть нарушена приватность. Успешный эксперимент определения уровня риска деобезличивания данных бизнес-кейсов с использованием «Маскировщика» позволил нам решить задачу максимизации функции полезности продукта при минимизации рисков данных. В ходе эксперимента мы снизили комплексные риски маскированных данных на 97,5% при сохранении их высокого показателя полезности, который составил 71%. Эти результаты подчеркивают эффективность наших методов обезличивания и их способность защищать конфиденциальность данных без ущерба для их аналитической ценности,» — отмечает исполнительный директор Ассоциации больших данных Алексей Нейман.
Модель оценки рисков повторной идентификации позволяет рассчитать вероятность выделения персональной информации в обезличенном дата-сете. Основываясь на этой оценке, можно принимать обоснованные решения об используемых средствах защиты и методах обработки данных. По результатам тестирования риск-модель доказала свою работоспособность, а также была дополнена подходами по симуляции атак, которые углубляют понимание рисков повторной идентификации за счет учета рисков выделения и связывания.
«При создании «Маскировщика» во главу угла мы поставили сохранение контекста данных. Умное маскирование учитывает пол, возрастную группу, привязку адреса и телефона к региону и многое другое. Такой подход позволяет максимально эффективно использовать обезличенные данные в тестировании высоконагруженных IT-систем. При этом вопрос безопасного использования таких данных остается ключевым для бизнеса. Мы благодарны АБД за совместную работу: благодаря риск-модели, мы смогли доработать продукт и свести риски работы с обезличенными данными к минимуму. Разработка риск-модели и ее валидация — большой шаг к выводу обезличенных данных из серой зоны. Уверен, что этот проект АБД позволит продвинуться к легализации их использования в бизнес-среде», — говорит Никита Назаров, технический директор HFLabs.
Риск-модель может стать основой для нахождения баланса между безопасностью и полезностью данных, когда полученным данным можно доверять и использовать, но по которым невозможно реидентифицировать конкретных субъектов. При этом целесообразно оценивать риски деобезличивания в каждом конкретном случае применения методов, в том числе давать оценку контекстного риска (исходя из того, в каких условиях будет обрабатываться обезличенный датасет).
Благодаря плодотворной совместной работе HFLabs и Ассоциации больших данных, «Маскировщик» при обезличивании данных сохраняет их качество и контекст, делая их максимально похожими на оригинальные и значительно снижая риски повторной идентификации. Внедрение риск-ориентированного подхода при обезличивании данных доказало свою важность, обеспечивая более точное управление рисками и максимальную полезность данных.
Источник: habr.com