Что такое Open Source AI: новая версия определения OSI

Open Source Initiative уже какое-то время работает над определением того, что можно называть Open Source AI. На днях вышла обновлённая версия документа — v. 0.0.9. В ней появились абзац, объясняющий термин «ИИ-система», и уточнение того, что открытость данных для обучения — параметр необязательный, но крайне полезный.

Предпосылки появления документа

На текущий момент нет зафиксированной договорённости по тому, что считать за Open Source в отношении ИИ (Open Source AI Definition). Золотое правило из манифеста GNU, гласящее «если мне нравится программа, то я должен обмениваться ею с другими людьми, которым она нравится», смутно подходит современным AI-системам. Что должно быть «открыто», чтобы ИИ-продукт считался Open Source? Достаточно ли доступа к уже обученной модели, как в случае с Llama 2? Или нужно публиковать данные, на которых обучалась модель?

Разработчикам и пользователям ИИ-инструментов важны беспрепятственное переиспользование уже готовых решений, возможность их совместного улучшения и другие преимущества Open Source. Наличие чёткого определения, что подходит под эту характеристику, а что нет, поможет обеспечить нужную индустрии ясность.

У OSI уже есть документ, определяющий термин Open Source, и подборка лицензий, которые ему соответствуют. Но Open Source AI Definition определено не до конца. Для разработки термина OSI привлекла большую группу исследователей, активистов, юристов и представителей больших технологических компаний. Также идеи для каждой итерации обсуждаются с сообществом на конференциях и открытых встречах.

Как OSI определяет ИИ-системы

Команда OSI посчитала, что Open Source-сообщество не должно придумывать своё определение термина «AI-система». После рассмотрения существующих вариантов была выбрана формулировка Организации экономического сотрудничества и развития (OECD):

Система искусственного интеллекта — это машинная система, способная влиять на окружающую среду, создавая рекомендации, прогнозы или другие результаты для определённого набора целей. Она использует машинный и/или человеческий ввод/данные для:

восприятия окружающей среды;

преобразования этого восприятия в модели;

формулировки вариантов результатов с помощью модели.

2022 OECD Framework for the Classification of AI systems

Главные изменения новой версии

Появилось детальное описание компонентов, которые входят в «AI-модель» и «AI-веса». А в раздел «Что такое Open Source AI» добавили два уточнения:

Слово «система» теперь означает не только полноценную структуру, но и отдельные её части — модели, веса и параметры.

Требования к тому, чтобы считаться Open Source, одинаковы как для системы в целом, так и для отдельных её частей.

После долгих обсуждений выбрали и подход к тому, обязательно ли открывать используемые для обучения данные, чтобы оценить систему как Open Source. Решили, что лучшим выходом будет сделать этот параметр необязательным. А в FAQ появилось разделение видов данных для обучения на открытые, публичные и не подлежащие распространению.

Одна из проблем в том, что зачастую законы, разрешающие обучение на основе данных, часто ограничивают их повторное использование (например, из-за авторского права или конфиденциальности информации о здоровье).

Конечно, в требованиях к Open Source AI прописано, что нужно раскрыть как минимум «подробную информацию о данных, использованных для обучения системы». Эта информация должна распространяться по одной из лицензий, которые соответствуют требованиям OSI к Open Source. Такой подход не будет противоречить законодательству и одновременно позволит желающим воссоздать эквивалентную систему, используя те же или аналогичные данные.

Мнение сообщества

Самые горячие споры в сообществе вызывает именно часть про раскрытие данных обучения.

Одни считают, что определение OSI даже в текущем виде хорошо повлияет на индустрию и позволит «помечать» несоответствие модели, продвигаемой как Open Source, реальным ожиданиям инженеров и разработчиков. Другие находят документ «ошибочным» и просят организацию не забирать текущие формулировки о данных для обучения в стабильную версию. Ведь они позволят вендорам просто предоставлять «информацию о данных», а не сами данные.

Что дальше

OSI планирует зарелизить стабильную версию документа к конференции All Things Open, которая состоится в конце октября этого года. До этого дискуссия с Open Source-сообществом и доработка черновика продолжатся. Вы можете внести свой вклад в обновление определения: мнением можно поделиться на одной из предстоящих онлайн-встреч или на форуме.

Похожей деятельностью занимается и Open Model Initiative, которая недавно присоединилась к Linux Foundation. Её команда тоже приглашают инженерное сообщество к диалогу, чтобы в мире появилось больше моделей с открытой лицензией.

Источник: habr.com

0 0 голоса

Рейтинг новости

22825

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”