Исследователи Массачусетского технологического института представили инструмент генеративного искусственного интеллекта GenSQL, который упрощает выполнение сложного статистического анализа табличных данных.
GenSQL помогает делать прогнозы, обнаруживать аномалии, угадывать пропущенные значения, исправлять ошибки или генерировать синтетические данные всего за несколько кликов.
Например, при анализе медицинских данных пациента, у которого всегда было высокое кровяное давление, ИИ может обнаружить показания артериального давления, которые являются низкими для этого человека, но в противном случае находились бы в нормальном диапазоне.
GenSQL автоматически интегрирует табличный набор данных и генеративную вероятностную модель ИИ, которая может учитывать неопределённость и корректировать принятие решений на основе новых данных.
Также инструмент можно использовать для создания и анализа синтетических данных, имитирующих реальные, когда исходная информация считается конфиденциальной.
Этот новый инструмент создан на основе SQL — языка программирования для создания баз данных и управления ими.
«Исторически SQL научил мир бизнеса тому, на что способен компьютер. Мы думаем, что при переходе от простого запроса данных к задаванию вопросов о моделях и данных нам понадобится аналогичный язык, который будет обучать людей связным вопросам для обращения к вероятностной модели данных», — отмечает соавтор разработки Викаш Мансингхка.
Когда исследователи сравнили GenSQL с популярными подходами к анализу данных на основе искусственного интеллекта, они обнаружили, что он не только быстрее, но и даёт более точные результаты. Важно отметить, что вероятностные модели, используемые GenSQL, объяснимы, поэтому пользователи могут читать и редактировать их.
«Глядя на данные и пытаясь найти какие-то значимые закономерности, просто используя простые статистические правила, можно упустить важные взаимодействия. В модели можно отразить корреляции и зависимости переменных, которые могут быть довольно сложными. С помощью GenSQL мы хотим дать возможность большому количеству пользователей запрашивать данные, не зная всех деталей», — добавляет ведущий автор Матье Юо.
Обычно в SQL можно задавать вопросы о данных, используя ключевые слова, например, путём суммирования, фильтрации или группировки записей БД. Однако запрос к модели может дать более глубокое понимание данных.
Исследователи заметили, что SQL не обеспечивает эффективного способа внедрения вероятностных моделей ИИ, но в то же время подходы, использующие вероятностные модели для вывода данных, не поддерживают сложные запросы к БД. Они создали GenSQL, чтобы заполнить этот пробел.
Пользователю нужно загрузить свои данные и вероятностную модель, которую автоматически интегрирует система. Затем она может выполнять запросы к данным, которые также получают входную информацию от вероятностной модели, работающей «за кулисами». Это не только позволяет выполнять более сложные запросы, но и даёт более точные ответы.
Запрос в GenSQL может выглядеть примерно так: «Насколько вероятно, что разработчик из Сиэтла знает язык программирования Rust?».
Кроме того, система выдаёт результаты, учитывая меру неопределённости. Например, если кто-то запросит у модели прогнозируемые результаты различных методов лечения рака для пациента из группы меньшинства, которая недостаточно представлена в наборе данных, GenSQL сообщит пользователю, что они являются неопределёнными.
Чтобы оценить GenSQL, исследователи сравнили свою систему с популярными базовыми методами, использующими нейронные сети. GenSQL работал в 1,7–6,8 раза быстрее, чем эти подходы, выполняя большинство запросов за несколько миллисекунд, обеспечивая при этом более точные результаты.
Они также применили GenSQL в двух тематических исследованиях: в одном система выявила неправильно маркированные данные клинических испытаний, а в другом — генерировала точные синтетические данные, отражающие сложные взаимосвязи в геномике.
Теперь исследователи хотят более широко применить GenSQL для проведения крупномасштабного моделирования человеческих популяций. С помощью инструмента они могут генерировать синтетические данные, чтобы делать выводы о таких показателях, как здоровье и зарплата, одновременно контролируя, какая информация используется в анализе.
Авторы также хотят сделать GenSQL более простым в использовании и более мощным, добавив в систему новые средства автоматизации. В долгосрочной перспективе исследователи намерены предоставить пользователям возможность выполнять запросы на естественном языке в GenSQL. Их цель — в конечном итоге разработать эксперта по искусственному интеллекту, похожего на ChatGPT, с которым можно было бы поговорить о любой базе данных.
Это исследование частично финансируется Агентством перспективных исследовательских проектов Министерства обороны (DARPA), Google и Siegel Family Foundation.
Источник: habr.com