Исследователи Массачусетского технологического института в сотрудничестве с лабораторией искусственного интеллекта MIT-IBM Watson представили метод оценки надежности General Purpose AI до их применения для решения конкретных задач.
Эти модели, как и те, которыми оснащены такие продвинутые инструменты ИИ, как ChatGPT и DALL-E, проходят предварительное обучение на огромных массивах данных и используются в различных приложениях, что создает "потенциальный риск получения неверных результатов в критических сценариях".
Метод основан на создании ансамбля слегка различающихся моделей и оценке их консенсуса в отношении представления данных. Измеряя согласованность этих представлений в разных моделях, исследователи могут оценить надежность прогнозов без тестирования в реальных условиях, что крайне важно в таких отраслях, как здравоохранение.
Ведущий автор исследования Янг-Джин Парк объясняет: "Наш подход измеряет консенсус между моделями. Если несколько моделей последовательно создают схожие представления для заданных точек данных, мы делаем вывод о надежности".
Новый уже метод превзошел существующие.
Источник: www.ferra.ru