Open Source Initiative уже какое-то время работает над определением того, что можно называть Open Source AI. На днях вышла обновлённая версия документа — v. 0.0.9. В ней появились абзац, объясняющий термин «ИИ-система», и уточнение того, что открытость данных для обучения — параметр необязательный, но крайне полезный.
Предпосылки появления документа
На текущий момент нет зафиксированной договорённости по тому, что считать за Open Source в отношении ИИ (Open Source AI Definition). Золотое правило из манифеста GNU, гласящее «если мне нравится программа, то я должен обмениваться ею с другими людьми, которым она нравится», смутно подходит современным AI-системам. Что должно быть «открыто», чтобы ИИ-продукт считался Open Source? Достаточно ли доступа к уже обученной модели, как в случае с Llama 2? Или нужно публиковать данные, на которых обучалась модель?
Разработчикам и пользователям ИИ-инструментов важны беспрепятственное переиспользование уже готовых решений, возможность их совместного улучшения и другие преимущества Open Source. Наличие чёткого определения, что подходит под эту характеристику, а что нет, поможет обеспечить нужную индустрии ясность.
У OSI уже есть документ, определяющий термин Open Source, и подборка лицензий, которые ему соответствуют. Но Open Source AI Definition определено не до конца. Для разработки термина OSI привлекла большую группу исследователей, активистов, юристов и представителей больших технологических компаний. Также идеи для каждой итерации обсуждаются с сообществом на конференциях и открытых встречах.
Как OSI определяет ИИ-системы
Команда OSI посчитала, что Open Source-сообщество не должно придумывать своё определение термина «AI-система». После рассмотрения существующих вариантов была выбрана формулировка Организации экономического сотрудничества и развития (OECD):
Система искусственного интеллекта — это машинная система, способная влиять на окружающую среду, создавая рекомендации, прогнозы или другие результаты для определённого набора целей. Она использует машинный и/или человеческий ввод/данные для:
восприятия окружающей среды;
преобразования этого восприятия в модели;
формулировки вариантов результатов с помощью модели.
2022 OECD Framework for the Classification of AI systems
Главные изменения новой версии
Появилось детальное описание компонентов, которые входят в «AI-модель» и «AI-веса». А в раздел «Что такое Open Source AI» добавили два уточнения:
Слово «система» теперь означает не только полноценную структуру, но и отдельные её части — модели, веса и параметры.
Требования к тому, чтобы считаться Open Source, одинаковы как для системы в целом, так и для отдельных её частей.
После долгих обсуждений выбрали и подход к тому, обязательно ли открывать используемые для обучения данные, чтобы оценить систему как Open Source. Решили, что лучшим выходом будет сделать этот параметр необязательным. А в FAQ появилось разделение видов данных для обучения на открытые, публичные и не подлежащие распространению.
Одна из проблем в том, что зачастую законы, разрешающие обучение на основе данных, часто ограничивают их повторное использование (например, из-за авторского права или конфиденциальности информации о здоровье).
Конечно, в требованиях к Open Source AI прописано, что нужно раскрыть как минимум «подробную информацию о данных, использованных для обучения системы». Эта информация должна распространяться по одной из лицензий, которые соответствуют требованиям OSI к Open Source. Такой подход не будет противоречить законодательству и одновременно позволит желающим воссоздать эквивалентную систему, используя те же или аналогичные данные.
Мнение сообщества
Самые горячие споры в сообществе вызывает именно часть про раскрытие данных обучения.
Одни считают, что определение OSI даже в текущем виде хорошо повлияет на индустрию и позволит «помечать» несоответствие модели, продвигаемой как Open Source, реальным ожиданиям инженеров и разработчиков. Другие находят документ «ошибочным» и просят организацию не забирать текущие формулировки о данных для обучения в стабильную версию. Ведь они позволят вендорам просто предоставлять «информацию о данных», а не сами данные.
Что дальше
OSI планирует зарелизить стабильную версию документа к конференции All Things Open, которая состоится в конце октября этого года. До этого дискуссия с Open Source-сообществом и доработка черновика продолжатся. Вы можете внести свой вклад в обновление определения: мнением можно поделиться на одной из предстоящих онлайн-встреч или на форуме.
Похожей деятельностью занимается и Open Model Initiative, которая недавно присоединилась к Linux Foundation. Её команда тоже приглашают инженерное сообщество к диалогу, чтобы в мире появилось больше моделей с открытой лицензией.
Источник: habr.com