Microsoft представила технологию Phi-4-mini-flash-reasoning, которая повышает пропускную способность токенов в 10 раз

Компания Microsoft представила Phi-4-mini-flash-reasoning — облегчённую модель искусственного интеллекта, созданную для сценариев с жёсткими ограничениями по вычислительным ресурсам, памяти или задержкам. Модель, разработанная для периферийных устройств и мобильных приложений, призвана обеспечить высокую эффективность логического вывода без требований к аппаратному обеспечению.

Phi-4-mini-flash-reasoning содержит 3,8 миллиарда параметров и основан на семействе Phi-4, представленном в декабре, с упором на математические рассуждения.

В основе новой модели лежит обновленная архитектура под названием SambaY, которая теперь включает блок стробированной памяти (GMU) и «дифференцированное внимание». Традиционные трансформаторы полагаются на комплексное внимание на каждом уровне, чтобы решить, какие части входного сигнала имеют наибольшее значение.

GMU упрощает этот процесс, заменяя сложные операции перекрёстного внимания простым поэлементным умножением текущего входного сигнала и состояния памяти из предыдущего слоя. Это позволяет модели динамически определять, на каких токенах следует сосредоточиться, без обычных вычислительных затрат.

SambaY сочетает в себе полноценный слой внимания с управляемыми блоками памяти, что снижает влияние перекрёстного внимания и ускоряет вывод данных

SambaY сочетает в себе несколько механизмов внимания: один слой полного внимания создаёт кэш «ключ-значение», к которому могут обращаться последующие слои, а глобальные мультиплексоры заменяют примерно половину слоёв перекрёстного внимания, позволяя слоям обмениваться информацией с помощью облегчённых операций умножения. Такой подход сокращает как использование памяти, так и вычислительные требования. В типичных моделях объём данных, передаваемых между памятью и процессором, увеличивается по мере роста длины последовательности, но в SambaY этот показатель практически не меняется.

Новая архитектура для более эффективного анализа данных

Эти архитектурные изменения значительно повышают производительность. По словам Microsoft, технология Phi-4-mini-flash-reasoning обеспечивает в десять раз более высокую пропускную способность и сокращает среднюю задержку в два-три раза по сравнению с предшественником. Однако эти результаты основаны на тестах с использованием промышленных графических процессоров, а не устройств с ограниченными ресурсами, для которых предназначена эта модель.

Phi-4-mini-flash-reasoning демонстрирует гораздо меньшую задержку при 32 000 токенов по сравнению со стандартной моделью рассуждений, что подчёркивает эффективность метода flash Технология Flash reasoning повышает пропускную способность в десять раз при сохранении той же готовности к работе

Phi-4-mini-flash-reasoning также отлично справляется с обработкой длинных контекстов. Модель поддерживает контекстное окно размером до 64 000 токенов и может сохранять скорость и производительность даже при максимальной нагрузке. Microsoft отмечает эффективность архитектуры SambaY, которая обеспечивает стабильную скорость обработки даже при увеличении длины последовательности, что является явным преимуществом по сравнению со стандартными моделями-трансформерами, которые в таких сценариях замедляются.

Превосходство над более крупными моделями в тестах на логическое мышление

Версия flash выделяется в тестах производительности. Модель Phi-4-mini-flash-reasoning была обучена на пяти триллионах токенов из тех же данных, что и Phi-4-mini, включая синтетические данные, с использованием 1000 графических процессоров A100 в течение 14 дней.

В ходе тестирования она стабильно превосходила базовую модель, особенно в задачах, требующих глубоких знаний, и в задачах по программированию, демонстрируя прирост производительности на несколько процентных пунктов. Модель также лучше справлялась с математическими и научными задачами, и всё это без ресурсоёмкого этапа обучения с подкреплением, который использовался в предыдущих версиях.

Phi-4-mini-flash-reasoning превосходит свою базовую модель, а в некоторых случаях даже модели, которые в два раза больше её

Phi-4-mini-flash-reasoning доступна на Hugging Face, а Microsoft опубликовала примеры кода в Phi Cookbook. Полный исходный код для обучения доступен на GitHub.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Перевод, источник новости здесь.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии