Компания Rednote, занимающаяся социальными сетями, выпустила свою первую большую языковую модель с открытым исходным кодом. Система Mixture-of-Experts (MoE), получившая название dots.llm1, предназначена для того, чтобы соответствовать производительности конкурирующих моделей при значительно меньшей стоимости.
Согласно техническому отчёту Rednote, в dots.llm1 используется 14 миллиардов активных параметров из 142 миллиардов в общей сложности. Архитектура MoE делит модель на 128 специализированных экспертных модулей, но для каждого токена активируются только шесть лучших модулей, а также два модуля, которые работают постоянно. Такой выборочный подход позволяет экономить вычислительные ресурсы без ущерба для качества.
Rednote заявляет о значительном повышении эффективности. Для обучения dots.llm1 на одном триллионе токенов потребовалось всего 130 000 часов работы графического процессора по сравнению с 340 000 часами для Qwen2.5-72B. В целом, полный процесс предварительного обучения для dots.llm1 занял 1,46 миллиона часов работы графического процессора, в то время как для Qwen2.5-72B потребовалось 6,12 миллиона часов — примерно в четыре раза больше. Несмотря на это, Rednote утверждает, что модели дают схожие результаты.
dots.llm1 по производительности соответствует Qwen-2.5-72B, при этом используется лишь пятая часть активных параметров. Квадратами обозначены модели MoE; кружками — плотные архитектуры
Тесты показывают, что dots.llm1 особенно хорошо справляется с задачами на китайском языке. В таких тестах, как C-Eval (который измеряет уровень владения китайским языком) и CMMLU (китайский вариант MMLU), модель превосходит Qwen2.5-72B и Deepseek-V3.
По результатам тестов на английском языке dots.llm1 немного отстаёт от лидеров. По результатам MMLU и более сложного MMLU-Pro, которые проверяют общие знания и способность рассуждать, модель немного отстаёт от Qwen2.5-72B.
Таблица сравнения: Qwen2.5-32B, Qwen2.5-72B, Deepseek V2/V3 и dots.llm1 в тестах на китайском, английском, математические и кодовые тесты в одинаковых условиях
Что касается математики, то dots.llm1 показывает хорошие результаты, но обычно уступает самым большим моделям. Однако его генерация кода впечатляет: в HumanEval, стандартном тесте на программирование, dots.llm1 превосходит Qwen2.5-72B и не уступает или почти не уступает в других задачах на кодирование.
Тренировочные данные: реальные, а не синтетические
Rednote обучила модель на 11,2 триллиона высококачественных токенов, используя только реальный интернет-текст и не прибегая к синтетическим данным. Процесс обработки данных состоит из трёх этапов: подготовка документов, фильтрация на основе правил и обработка на основе модели. Выделяются два нововведения: система, которая удаляет отвлекающие элементы веб-сайтов, такие как реклама и панели навигации, и автоматическая категоризация контента.
Преимущества процесса фильтрации данных Rednote очевидны в нескольких тестах
Компания создала классификатор на 200 категорий, чтобы оптимизировать набор обучающих данных. Это позволило увеличить долю фактического и основанного на знаниях контента (например, статей из энциклопедий и научных работ), сократив при этом количество вымышленных и высокоструктурированных веб-страниц, таких как списки товаров.
Открытый исходный код и глобальные амбиции
Rednote публикует промежуточные контрольные точки после каждого триллиона токенов, прошедших обучение, что позволяет исследовательскому сообществу получить представление о динамике обучения больших моделей. Модели доступны на Hugging Face по лицензии Apache 2.0, а исходный код — на GitHub.
Имея 300 миллионов пользователей в месяц, Rednote выходит на переполненный китайский рынок ИИ, возглавляемый такими компаниями, как Alibaba, Baidu, Tencent, Bytedance и Deepseek. Новая модель разработана в лаборатории Rednote по изучению человеческого интеллекта, которая отделилась от команды ИИ компании и теперь нанимает больше исследователей с гуманитарным образованием.
Rednote уже тестирует на своей платформе исследовательского ассистента Diandian на базе собственной модели ИИ.
Этой весной приложение для социальных сетей ненадолго попало в международные заголовки как возможное убежище для пользователей из США во время угрозы запрета TikTok. Когда запрет был отменён, интерес за пределами Китая угас.
Тем не менее, 7 июня Rednote открыла свой первый офис за пределами материкового Китая в Гонконге и планирует дальнейший международный рост. По данным Bloomberg, в этом году её стоимость достигла 26 миллиардов долларов, превысив пик, достигнутый во время пандемии, а IPO ожидается в 2025 году.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник
Источник: habr.com