MOSTLY AI открыла доступ к архитектуре TabularARGN и исходному коду нейронной модели (лицензия Apache v2), которая позволяет эффективно генерировать структурированные синтетические данные. В опубликованной статье авторы подробно описывают структуру модели TabularARGN и ее возможности.
Движок для генерации высококачественных синтетических данных с сохранением конфиденциальности.
TabularARGN является нейронной моделью, предназначенной для создания синтетических данных и позволяющей организациям безопасно использовать свои информационные ресурсы в виде структурированных данных, производить их анализ, обучать модели машинного обучения на их основе, обмениваться данными между структурами организации при обеспечении их конфиденциальности. Независимо от того, идет ли речь о простых одиночных («плоских») таблицах с разнообразными типами данных или нескольких связанных друг с другом таблиц с нерегулярной структурой («реляционные» таблицы) и различной длиной последовательностей (н-р, временные ряды или наборы предметов и т.д.), TabularARGN демонстрирует надежность и высокую производительность. Она способна обрабатывать сложные данные, что должно позволить применять ее в широком спектре реальных сценариев при сохранении статистической достоверности сгенерированных данных и предоставлении гарантий конфиденциальности, включая дифференциальную приватность (differential privacy, DP).
В отличие от других генераторов синтетических данных, которые полагаются на сложные и ресурсоемкие архитектуры, TabularARGN представляет собой достаточно простую, но эффективныю архитектуру авто-регрессивной нейронной сети. Авторы адаптировали и расширили авто-регрессивные концепции для решения уникальных задач структурированных (табличных) данных, что позволило создать модель высокого качества по скорости и надежности.
В чем уникальность TabularARGN?
Высокая точность:TabularARGN обеспечивает качество синтетических данных, сопоставимое с передовыми (SOTA) моделями, что гарантирует надежные результаты.
Приватность по умолчанию:Модель учитывает только конфиденциальные диапазоны значений для выборки и обладает встроенными функциями защиты приватности. Возможность обучения с использованием DP-SGD (Differentially-Private Stochastic Gradient Descent) алгоритма позволяет достичь гарантий дифференциальной приватности за реальное время.
Простота:Используя существующие базовые блоки, TabularARGN легко интегрируется в стандартные фреймворки глубокого обучения.
Эффективность вычислений:Скорость обучения до 100 раз выше чем у других SOTA методах позволяет модели масштабироваться даже для больших и сложных наборов данных без потери производительности.
Гибкость выборки:Поддерживаются расширенные возможности выборки, такие как условная генерация (генерация данных или сэмплинг, основанные на каких-то специфицечских условиях) для создания целевых наборов данных, восстановление отсутствующих значений (imputation) и корректировки при соблюдения этических целей (fairness) синтеза данных. Регулировка параметров (н-р, температуры или top_p) помогает сбалансировать правила и разнообразие данных.
Универсальность данных:Поддержка гетерогенности реальных табличных наборов включает многомерные данные смешанных типов (категории, числовые, временные, гео-данные и др.), последовательные наборы с различной длиной последовательностей и временными интервалами.
Надежность в обучении: TabularARGN обеспечивает высокое качество синтетических данных с настройками по умолчанию и остаётся стабильным даже при новых обучениях модели.
Производительность TabularARGN была протестирована на фоне других open-source эталонов (см. рис.):
Простые («плоские») таблицы:На наборе данных Adult, TabularARGN достигает точности 97.9%, сопоставимой с передовыми методами, при этом обучение происходит в 16 раз быстрее.
Реляционные таблицы с последовательностями:На таких наборах данных, как Baseball, TabularARGN превосходит все базовые модели на 9 процентных пунктов, а скорость обучения увеличивается до 100 раз.
Как видно из результатов, даже при использовании дифференциальной приватности (DP-SGD) TabularARGN сохраняет конкурентоспособную точность, демонстрируя адаптивность без ущерба для качества. Модель может автоматически адаптироваться к смешанным типам данных, справляться с отсутствующими значениями и масштабироваться до миллионов записей без задержек в обучении.
Ссылки:
Статья об архитектуре TabularARGN — https://arxiv.org/abs/2501.12012v1
Открытый исходный код Synthetic Data Engine (TabularARGN) — https://github.com/mostly-ai/mostlyai-engine
Источник: habr.com