Вышли новые версии Qwen3-Next-80B в FP8 формате

Qwen представила новые версии своих моделей — Qwen3-Next-80B в формате FP8, и это одно из самых интересных обновлений в линейке. Обе модели — Instruct и Thinking — построены на базе MoE-архитектуры и FP8-квантования, что позволяет при огромном размере не только сохранить качество, но и заметно повысить скорость инференса и снизить потребление памяти.

Первая версия — Qwen3-Next-80B-A3B-Instruct-FP8. Она оптимизирована под сложные задачи рассуждений и анализа больших документов (до 262 тысяч токенов в стандартной конфигурации и с расширением до миллиона). Это делает модель особенно полезной для юридических документов, научных статей, корпоративных архивов и других сценариев, где важно обрабатывать большие массивы текста без потери связности.

Вторая версия — Qwen3-Next-80B-A3B-Thinking-FP8. Здесь акцент сделан на глубоких рассуждениях и логике. В ней применено гибридное внимание (Gated DeltaNet + Gated Attention), что открывает возможности для работы с супердлинными контекстами и сложными задачами. На бенчмарках по рассуждениям эта версия обгоняет не только собственные младшие модели Qwen3-30B и Qwen3-32B, но и закрытую Gemini-2.5-Flash-Thinking, которая до этого считалась одной из самых сильных в своей категории.

Отдельное внимание заслуживает использование FP8-точности. Это сравнительно новая техника, которая позволяет заметно ускорить инференс и снизить нагрузку на оборудование при минимальной потере качества. Для продакшн-задач, где важны и эффективность, и стабильность, такой баланс особенно ценен.

Кроме того, обе модели полностью совместимы с Transformers, vLLM и SGLang, что делает их удобными для интеграции в реальные проекты. Они открывают новые горизонты для компаний и исследователей, которым нужны быстрые, экономичные и при этом максимально мощные инструменты для анализа текста, рассуждений и работы с изображениями.

Таким образом, обновление Qwen3-Next-80B в формате FP8 можно назвать серьёзным шагом вперёд — оно делает модель ближе к практическим задачам и выводит её в лидеры среди открытых решений для работы с длинным контекстом и сложными сценариями мышления.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”