Релиз открытой модели ByteDance: Seed-OSS-36B с контекстом в 512 000 токенов

TikTok снова в центре внимания — на этот раз благодаря Белому дому, который завёл аккаунт в популярном приложении. Но сюрприз подготовила и сама ByteDance, китайский интернет‑гигант: компания представила новую разработку в области искусственного интеллекта.

Исследовательская команда Seed Team выпустила Seed‑OSS-36B на платформе Hugging Face.

Seed‑OSS-36B — это новая линейка открытых больших языковых моделей (LLM), созданных для сложных рассуждений и удобства работы разработчиков. Главное их отличие — удлинённый контекст, то есть объём информации, который модель способна воспринять и обработать за один сеанс. Этот показатель превышает возможности многих конкурентов.

В коллекцию входят три основных варианта:

Seed‑OSS-36B‑Base с синтетическими данными;

Seed‑OSS-36B‑Base без синтетических данных;

Seed‑OSS-36B‑Instruct.

Выпустив сразу две версии базовой модели — с синтетическими данными и без них, команда Seed стремилась найти баланс между практической эффективностью и гибкостью для научных исследований.

Вариант с синтетическими данными, дополнительно обученный на инструкциях, стабильно показывает высокие результаты в стандартных тестах и задуман как более мощный универсальный инструмент.

Несинтетическая версия, напротив, лишена этих надстроек, образуя чистую основу, свободную от возможных искажений, которые иногда вносят искусственные данные.

Благодаря этому, пользователи получают и более сильный инструмент «на каждый день», и при этом исследователи сохраняют нейтральный фундамент для изучения методов дообучения.

Тем временем Seed‑OSS-36B‑Instruct выделяется тем, что прошёл дополнительное обучение на инструкциях, чтобы лучше выполнять конкретные задачи и следовать командам, а не быть лишь чистым фундаментом.

Все три модели выпущены под лицензией Apache-2.0, что позволяет исследователям и корпоративным разработчикам свободно использовать, модифицировать и распространять их.

Иными словами, модели можно применять в коммерческих приложениях — как внутренних, так и клиентских — без необходимости платить ByteDance лицензионные сборы или за использование API.

Таким образом, компания продолжает летнюю тенденцию 2025 года, когда китайские разработчики один за другим выпускают мощные открытые модели. На этот вызов старается ответить и OpenAI, представившая в начале месяца свой открытый дуэт gpt‑oss.

Команда Seed позиционирует Seed‑OSS как инструмент для международного применения, подчёркивая его универсальность: от рассуждений и выполнения агентоподобных задач до многоязычных сценариев.

Группа Seed была основана в 2023 году и с самого начала сосредоточилась на создании фундаментальных моделей, пригодных и для научных исследований, и для практических приложений.

Архитектура и ключевые особенности

В основе Seed‑OSS-36B лежат знакомые технические решения: каузальное (причинно‑следственное) языковое моделирование, grouped query attention, активация SwiGLU, нормализация RMSNorm и позиционное кодирование RoPE.

Каждая модель насчитывает 36 млрд параметров, распределённых по 64 слоям, и поддерживает словарь в 155 тысяч токенов.

Одной из главных особенностей стала родная поддержка сверхдлинного контекста — до 512 000 токенов, что позволяет обрабатывать объёмные документы и сложные цепочки рассуждений без потерь производительности.

Ещё одна отличительная черта — появление механизма thinking budget (бюджет на размышления), позволяющего разработчикам задавать, сколько времени и вычислительных ресурсов модель должна тратить на рассуждения перед тем, как выдать ответ.

Подобные возможности начали появляться и у других современных открытых моделей, например у Nvidia Nemotron‑Nano-9B‑v2, также доступной на Hugging Face.

На практике это означает, что команды могут тонко настраивать работу модели в зависимости от сложности задачи и требований к эффективности. Рекомендуется задавать бюджеты, кратные 512 токенам; при значении 0 система отвечает напрямую, без дополнительного анализа.

Конкурентные показатели на сторонних тестах

Опубликованные вместе с релизом результаты показывают: Seed‑OSS-36B входит в число самых сильных открытых моделей. Особенно ярко выделяется вариант Instruct, демонстрирующий рекордные показатели.

Математика и логика: Seed‑OSS-36B‑Instruct набирает 91,7% на AIME24 и 65 на BeyondAIME, что считается новым открытым «золотым стандартом».

Программирование: на LiveCodeBench v6 модель показывает 67,4, вновь став лидером в категории.

Длинный контекст: на RULER при длине 128K контекста результат — 94,6, лучший среди открытых решений.

Базовая версия (с синтетикой): 65,1 на MMLU‑Pro и 81,7 на MATH, оба результата — лучшие в классе.

Несинтетическая версия, хотя и уступает в ряде показателей, остаётся конкурентоспособной и даже опережает «синтетическую» на тесте GPQA‑D, что делает её удобной чистой основой для научных экспериментов.

Для бизнеса это значит, что Seed‑OSS открывает широкие возможности в задачах, требующих математики, программирования и обработки длинных текстов, сохраняя при этом гибкость для исследовательских сценариев.

Доступ и внедрение

Помимо производительности, команда Seed подчёркивает простоту внедрения. Модели поддерживаются библиотекой Hugging Face Transformers и позволяют применять квантизацию в 4- и 8-битных форматах, что снижает требования к памяти.

Также они интегрируются с vLLM для масштабируемого развёртывания, предлагая примеры конфигураций и инструкции по настройке серверов API.

Чтобы ещё больше снизить барьеры, разработчики приложили готовые скрипты для запуска, кастомизации подсказок и интеграции инструментов.

Для технических руководителей небольших команд или проектов с ограниченными бюджетами это делает работу с моделью в 36 млрд параметров куда более доступной.

Лицензия и рекомендации для бизнеса

Поскольку модели распространяются под лицензией Apache-2.0, компании могут внедрять их без ограничительных условий — важный момент для тех, кто учитывает юридические и операционные риски.

Для руководителей, оценивающих рынок open‑source, выпуск Seed‑OSS несёт три ключевых вывода:

Рекордные показатели в математике, программировании и длинном контексте.

Баланс между более сильными версиями на синтетических данных и «чистыми» исследовательскими вариантами.

Функциональность, упрощающая использование даже для небольших инженерных коллективов.

Объединив высокую производительность и гибкое внедрение под открытой лицензией, команда Seed из ByteDance предложила новые возможности сразу для бизнеса, исследователей и разработчиков.Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии