Вышли новые версии Qwen3-Next-80B в FP8 формате

Qwen представила новые версии своих моделей — Qwen3-Next-80B в формате FP8, и это одно из самых интересных обновлений в линейке. Обе модели — Instruct и Thinking — построены на базе MoE-архитектуры и FP8-квантования, что позволяет при огромном размере не только сохранить качество, но и заметно повысить скорость инференса и снизить потребление памяти.

Первая версия — Qwen3-Next-80B-A3B-Instruct-FP8. Она оптимизирована под сложные задачи рассуждений и анализа больших документов (до 262 тысяч токенов в стандартной конфигурации и с расширением до миллиона). Это делает модель особенно полезной для юридических документов, научных статей, корпоративных архивов и других сценариев, где важно обрабатывать большие массивы текста без потери связности.

Вторая версия — Qwen3-Next-80B-A3B-Thinking-FP8. Здесь акцент сделан на глубоких рассуждениях и логике. В ней применено гибридное внимание (Gated DeltaNet + Gated Attention), что открывает возможности для работы с супердлинными контекстами и сложными задачами. На бенчмарках по рассуждениям эта версия обгоняет не только собственные младшие модели Qwen3-30B и Qwen3-32B, но и закрытую Gemini-2.5-Flash-Thinking, которая до этого считалась одной из самых сильных в своей категории.

Отдельное внимание заслуживает использование FP8-точности. Это сравнительно новая техника, которая позволяет заметно ускорить инференс и снизить нагрузку на оборудование при минимальной потере качества. Для продакшн-задач, где важны и эффективность, и стабильность, такой баланс особенно ценен.

Кроме того, обе модели полностью совместимы с Transformers, vLLM и SGLang, что делает их удобными для интеграции в реальные проекты. Они открывают новые горизонты для компаний и исследователей, которым нужны быстрые, экономичные и при этом максимально мощные инструменты для анализа текста, рассуждений и работы с изображениями.

Таким образом, обновление Qwen3-Next-80B в формате FP8 можно назвать серьёзным шагом вперёд — оно делает модель ближе к практическим задачам и выводит её в лидеры среди открытых решений для работы с длинным контекстом и сложными сценариями мышления.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии