ByteDance показала экспериментальную языковую модель Seed Diffusion Preview, основанную на дискретной диффузии, которая работает в 5.4 раза быстрее аналогов того же размера, достигая скорости 2146 токенов в секунду. При этом качество генерации кода на ключевых бенчмарках остается сопоставимым.
Seed Diffusion Preview — это экспериментальная языковая модель на основе диффузии, выпущенная командой ByteDance Seed. Её цель — систематически проверять возможность использования подхода дискретной диффузии в качестве основы для языковых моделей следующего поколения, используя генерацию структурированного кода в качестве экспериментальной области.
В ходе этого исследования команда представила несколько ключевых технологий, в том числе двухэтапное диффузионное обучение, обучение с ограничением порядка и обучение с использованием политики для эффективного параллельного декодирования, а также экспериментально подтвердила эффективность этого технического подхода.
Экспериментальные результаты показывают, что Seed Diffusion Preview может генерировать код со скоростью 2146 токенов в секунду, что в 5,4 раза быстрее по сравнению с авторегрессионными моделями аналогичного масштаба, при этом сохраняя сопоставимую производительность в нескольких основных тестах кода. Эти результаты устанавливают новый уровень соотношения скорости и качества для моделей кода, доказывая эффективность этого подхода.
ByteDance рассматривает эту технологию как возможную основу для языковых моделей нового поколения. Модель уже доступна для тестирования.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник
Источник: habr.com