Common Pile — это первый крупномасштабный текстовый набор данных, полностью созданный на основе открытых источников и предлагающий альтернативу веб-данным, ограниченным авторским правом.
Общая база данных Common Pile v0.1 объемом 8 ТБ была собрана исследователями из Университета Торонто, Hugging Face, EleutherAI, Института искусственного интеллекта Аллена (Ai2) и других. Она объединяет контент из 30 различных источников.
Набор данных объединяет научные статьи и тезисы из Arxiv, медицинские тексты из PubMed Central и миллионы других исследовательских статей. Также включены юридические материалы, такие как патенты США, правительственные документы, судебные решения из проекта Caselaw Access Project и стенограммы дебатов в британском парламенте. Есть также книги из Project Gutenberg и Библиотеки Конгресса, а также широкий спектр бесплатных образовательных ресурсов.
Образцы кода составляют более половины набора данных Common Pile
Common Pile также использует данные с форумов StackExchange, логи чатов Ubuntu IRC, обсуждения на GitHub и расшифрованные видео с YouTube с более чем 2000 каналов. Меньшая часть набора данных охватывает тщательно отобранные форматы задач, такие как пары вопросов и ответов и задачи на классификацию.
Строгое лицензирование, но без гарантий
Всё, что было в Common Pile, должно было соответствовать Open Definition 2.1 от Фонда открытого знания. В отбор попадал только контент с действительно открытыми лицензиями, такими как CC BY, CC BY-SA, CC0, или разрешительными лицензиями на программное обеспечение, такими как MIT или BSD. Всё, что имело ограничения «некоммерческое использование» (CC NC) или «без производных работ» (CC ND), исключалось.
Команда пропустила источники с неясным лицензированием, в том числе YouTube Commons и OpenAlex. Они также избегали текста, сгенерированного искусственным интеллектом на основе моделей, обученных на нелицензированных данных, стремясь сохранить законность набора данных.
Тем не менее исследователи признают, что невозможно гарантировать идеальность. Неправильное лицензирование (иногда называемое «отмыванием лицензий») или последующие изменения в условиях лицензии могут привести к появлению проблемного контента.
Comma: открытые языковые модели, обученные на Common Pile
Чтобы посмотреть, как эти данные работают на практике, команда обучила две языковые модели, каждая из которых содержит семь миллиардов параметров. Comma v0.1-1T была обучена на одном триллионе токенов, а Comma v0.1-2T — на вдвое большем количестве. Обе модели основаны на архитектуре Llama от Meta* и используют токенизатор, обученный специально для Common Pile.
Модели были протестированы на ряде контрольных задач: MMLU для проверки общих знаний, ARC и CommonsenseQA для логического вывода, а также задачи кодирования, такие как HumanEval и MBPP.
Во многих из этих тестов Comma v0.1-1T превзошла модели аналогичного размера, такие как Llama-1-7B, StableLM-7B и OpenLLaMA-7B, которые обучались на нелицензированных данных. Наибольший прирост наблюдался в научных и программных тестах.
Результаты были менее впечатляющими в таких заданиях, как HellaSwag или PIQA, которые в большей степени зависят от повседневного языка и неформального письма. Такие материалы, как личные истории, блоги или тексты на других языках, по-прежнему отсутствуют или недостаточно представлены в Common Pile.
Исследователи также сравнили модель Comma с двумя триллионами токенов с моделями Llama-2-7B, OLMo-7B-Twin и DeepSeekLLM. Они отметили, что эти модели для сравнения были несколько старше, и ни одна из них не была выпущена после 2024 года, за исключением Qwen3-8B, которую они считают современной моделью с открытым исходным кодом. Команда подчеркнула, что они не могут провести достоверное сравнение с моделями, у которых бюджет на обучение был в 36 или 18 раз больше.
Звёздочками отмечены модели Comma, которые не уступают или превосходят ведущие модели с открытым исходным кодом в нескольких категориях
По сравнению с более ранними открытыми наборами данных, такими как KL3M, OLC и Common Corpus, Common Pile стабильно показывал лучшие результаты. Comma также превзошёл большинство тестов на The Pile — мета-набор данных объёмом 800 ГБ, собранный компанией EleutherAI в 2020 году. The Pile широко используется в исследованиях ИИ, но вызывает споры, поскольку большая часть его содержимого защищена авторским правом и была включена без явного разрешения.
В большинстве тестов набор данных FineWeb, отфильтрованный по веб-страницам, показал лучшие результаты. Но FineWeb также создан на основе источников, которые не имеют исключительно открытой лицензии.
На гистограмме сравниваются результаты тестов для разных наборов данныхПервый шаг к созданию юридически обоснованных языковых моделей
Common Pile v0.1 демонстрирует, что можно создавать достойные языковые модели, используя только открытые данные, что потенциально может привести к созданию более прозрачной и юридически обоснованной экосистемы ИИ. Однако исследователи ясно дают понять, что это лишь первый шаг. Чтобы конкурировать с крупнейшими коммерческими моделями, им необходимо существенно расширить открытый набор данных.
Источник
Источник: habr.com