Что такое Open Source AI: новая версия определения OSI

Open Source Initiative уже какое-то время работает над определением того, что можно называть Open Source AI. На днях вышла обновлённая версия документа — v. 0.0.9. В ней появились абзац, объясняющий термин «ИИ-система», и уточнение того, что открытость данных для обучения — параметр необязательный, но крайне полезный.

Предпосылки появления документа

На текущий момент нет зафиксированной договорённости по тому, что считать за Open Source в отношении ИИ (Open Source AI Definition). Золотое правило из манифеста GNU, гласящее «если мне нравится программа, то я должен обмениваться ею с другими людьми, которым она нравится», смутно подходит современным AI-системам. Что должно быть «открыто», чтобы ИИ-продукт считался Open Source? Достаточно ли доступа к уже обученной модели, как в случае с Llama 2? Или нужно публиковать данные, на которых обучалась модель? 

Разработчикам и пользователям ИИ-инструментов важны беспрепятственное переиспользование уже готовых решений, возможность их совместного улучшения и другие преимущества Open Source. Наличие чёткого определения, что подходит под эту характеристику, а что нет, поможет обеспечить нужную индустрии ясность. 

У OSI уже есть документ, определяющий термин Open Source, и подборка лицензий, которые ему соответствуют. Но Open Source AI Definition определено не до конца. Для разработки термина OSI привлекла большую группу исследователей, активистов, юристов и представителей больших технологических компаний. Также идеи для каждой итерации обсуждаются с сообществом на конференциях и открытых встречах.

Как OSI определяет ИИ-системы

Команда OSI посчитала, что Open Source-сообщество не должно придумывать своё определение термина «AI-система». После рассмотрения существующих вариантов была выбрана формулировка Организации экономического сотрудничества и развития (OECD):  

Система искусственного интеллекта — это машинная система, способная влиять на окружающую среду, создавая рекомендации, прогнозы или другие результаты для определённого набора целей. Она использует машинный и/или человеческий ввод/данные для:

восприятия окружающей среды;

преобразования этого восприятия в модели;

формулировки вариантов результатов с помощью модели.

2022 OECD Framework for the Classification of AI systems

Главные изменения новой версии

Появилось детальное описание компонентов, которые входят в «AI-модель» и «AI-веса». А в раздел «Что такое Open Source AI» добавили два уточнения:

Слово «система» теперь означает не только полноценную структуру, но и отдельные её части — модели, веса и параметры.

Требования к тому, чтобы считаться Open Source, одинаковы как для системы в целом, так и для отдельных её частей. 

После долгих обсуждений выбрали и подход к тому, обязательно ли открывать используемые для обучения данные, чтобы оценить систему как Open Source. Решили, что лучшим выходом будет сделать этот параметр необязательным. А в FAQ появилось разделение видов данных для обучения на открытые, публичные и не подлежащие распространению.

Одна из проблем в том, что зачастую законы, разрешающие обучение на основе данных, часто ограничивают их повторное использование (например, из-за авторского права или конфиденциальности информации о здоровье). 

Конечно, в требованиях к Open Source AI прописано, что нужно раскрыть как минимум «подробную информацию о данных, использованных для обучения системы». Эта информация должна распространяться по одной из лицензий, которые соответствуют требованиям OSI к Open Source. Такой подход не будет противоречить законодательству и одновременно позволит желающим воссоздать эквивалентную систему, используя те же или аналогичные данные. 

Мнение сообщества

Самые горячие споры в сообществе вызывает именно часть про раскрытие данных обучения. 

Одни считают, что определение OSI даже в текущем виде хорошо повлияет на индустрию и позволит «помечать» несоответствие модели, продвигаемой как Open Source, реальным ожиданиям инженеров и разработчиков. Другие находят документ «ошибочным» и просят организацию не забирать текущие формулировки о данных для обучения в стабильную версию. Ведь они позволят вендорам просто предоставлять «информацию о данных», а не сами данные.

Что дальше 

OSI планирует зарелизить стабильную версию документа к конференции All Things Open, которая состоится в конце октября этого года. До этого дискуссия с Open Source-сообществом и доработка черновика продолжатся. Вы можете внести свой вклад в обновление определения: мнением можно поделиться на одной из предстоящих онлайн-встреч или на форуме.   

Похожей деятельностью занимается и Open Model Initiative, которая недавно присоединилась к Linux Foundation. Её команда тоже приглашают инженерное сообщество к диалогу, чтобы в мире появилось больше моделей с открытой лицензией. 

Источник: habr.com

0 0 голоса
Рейтинг новости
11790
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии