Сегодня бюджеты на обучение больших языковых моделей измеряются уже триллионами токенов, а достойные веб‑данные становятся всё труднее добыть. В Datology AI называют эту «стену данных» одним из главных вызовов и предлагают BeyondWeb как решение. Система заново структурирует уже существующие веб‑документы, делая их более ёмкими по содержанию, придаёт текстам обучающий тон и перестраивает их так, чтобы они лучше подходили для тренировок.
Прирост производительности
По данным Datology AI, BeyondWeb повышает точность на 5,1 п. п. в моделях с 8 млрд параметров по сравнению с Cosmopedia от Hugging Face и на 2,6 п. п. по сравнению с датасетом Nemotron‑CC от Nvidia.
Средние показатели точности рассчитаны по 14 стандартным бенчмаркам в условиях 0-shot и 5-shot
Исследование показало и другое: BeyondWeb обучается значительно быстрее — в 7,7 раза быстрее, чем открытые веб‑данные, и в 2,7 раза быстрее, чем Nemotron Synthetic. В одном из тестов модель с 3 млрд параметров, обученная на BeyondWeb, превзошла модель с 8 млрд параметров, тренировавшуюся на Cosmopedia при одинаковом объёме токенов.
BeyondWeb достигла около 64% финальной точности уже после 66 млрд токенов, обойдя RedPajama в 7,7 раза и Nemotron‑Synth в 2,7 раза
Учёные сосредоточились на семи ключевых вопросах, связанных с генерацией синтетических данных. Один из главных выводов: разнообразие — залог устойчивого прогресса. Стандартные методы помогают на ранних этапах обучения, но их однообразие в стиле ведёт к снижению отдачи.
Ещё одна находка: разговорный стиль в веб‑данных представлен ничтожной долей — менее 2,7%. При этом именно чат сегодня является основным сценарием применения LLM. Добавление диалоговых данных помогает, но эффект быстро выходит на плато.
Малые модели тоже умеют хорошо переформулировать текст
При сравнении моделей разных размеров исследователи обнаружили, что даже небольшие языковые модели способны порождать качественные синтетические данные. Переход от 1 до 3 млрд параметров увеличил качество данных на 1,5 п. п., однако дальнейший рост до 8 млрд уже почти не дал прибавки. Это значит, что организации с ограниченными ресурсами тоже могут создавать сильные синтетические датасеты.
С ростом размера модели точность синтетических данных увеличивается от 1B до 3B, а затем стабилизируется на уровне 8B
Кроме того, команда проверила разные семейства моделей‑переформулировщиков и пришла к выводу: все они дают примерно одинаково качественные результаты. Иными словами, высокий бенчмарк самой модели вовсе не гарантирует, что её синтетические данные окажутся лучше.
Практическое применение
BeyondWeb уже применили при обучении модели AFM (ArceeAI) с 4,5 млрд параметров. Для этого Datology AI построила масштабируемый конвейер, способный обрабатывать триллионы токенов. Авторы проекта подчёркивают: создание данных высшего качества — процесс тонкий, требующий настройки множества параметров. На данный момент BeyondWeb недоступна для свободного исследовательского использования.
Microsoft показала силу синтетических данных в Phi-4 (декабрь 2024), обучив модель на 400 млрд токенов учебникового стиля и внедрив специальные pivotal tokens, которые ускоряют усвоение. Phi-4 показала впечатляющие результаты в тестах, но в реальной эксплуатации отзывы оказались противоречивыми.
За полгода до этого Nvidia выпустила Nemotron-4 340B — полностью открытый конвейер для генерации синтетических данных, где 98% обучающего корпуса модели Instruct было создано искусственно. Примерно в то же время исследователи развенчали популярную теорию «коллапса моделей», показав, что грамотно использованные синтетические данные, напротив, двигают развитие ИИ вперёд.
OpenAI тоже раскрыла во время анонса GPT-5, что модель обучалась на синтетических данных, скорее всего сгенерированных внутренней моделью o3. При этом, в отличие от многих компаний, делающих ставку на экономию, OpenAI заявляет: цель не в том, чтобы затыкать дыры, а в том, чтобы тщательно готовить материалы, обеспечивая настоящее обучение.
Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.
Источник: habr.com