Компании традиционно накапливают большое количество данных. Часто столбцы в базах данных подписывают аббревиатурами, понятными только их автору или аналитику, который работал с этими данными. Иногда даже корректно подписанные данные без дополнительного контекста становятся бесполезными.
Чтобы решить эту проблему, мы запустили MWS Data Scout — сервис для автоматического описания корпоративных данных. Этот ИИ‑агент на базе LLM анализирует базы данных и формирует краткие описания их содержимого и связей.
MWS Data Scout позволяет аналитикам и дата-сайентистам быстрее находить нужную информацию, не тратить время на разбор таблиц вручную и не создавать дубликаты.
Кроме того, использование сервиса снижает зависимость от отдельных сотрудников: когда знания о данных хранятся только в голове одного человека, при его уходе теряется контекст. Каталог помогает сохранить эти знания.
ИИ‑агент также даёт понимание семантики: он описывает характеристики данных, которые не всегда можно отразить в названиях полей базы.
ИИ‑агент интегрируется с популярными дата‑каталогами (DataHub, OpenMetadata, MWS) и подключается из облака или из защищённого контура клиента. Он анализирует связи между таблицами, типы данных и их характеристики, предоставляя детализированные описания. Сервис также способен выявлять критически важную информацию (персональные, банковские, паспортные данные).
Процесс работы ИИ‑агента включает получение метаданных и информации из Confluence для учёта бизнес‑контекста. Далее он описывает таблицы и столбцы, выявляет критичные данные. По завершении анализа формируется структурированный отчёт, который загружается в дата‑каталог.
По нашим оценкам, использование MWS Data Scout позволит компаниям значительно сократить затраты на квалификацию данных и рутинную обработку.
Больше подробностей читайте на странице.
Источник: habr.com