Вышла обновленная Qwen3-235B-A22B-Instruct-2507 без режима мышления и улучшенным качеством

Представлено обновление для модели Qwen3-235B-A22B. Это MoE модель где 235B параметров из которых 22B активны. Упор сделан на убирание гибридного режима работы, оставив только не размышляющий режим, и увеличение размера контекста до 256к.

Гибридный режим, когда у модели можно было включить или выключить размышления через /think и /no_think, не нравился пользователям, скорость работы think было слишком медленным при запуске на ОЗУ, и пользователи предпочитали no_think режим, качество которого страдало из-за гибридного режима, поэтому разработчики приняли решение разделить это по разным моделям.

По бенчмаркам, сравнивая старую и новую версии, в целом видно, что разделение режимов хорошо сказалось на качестве.

Размер контекста увеличен с 32к (128к с YaRN) до нативных 256к. Разработчики выпускают эту модель в качестве тизера перед большим обновлением.

Веса: https://huggingface.co/Qwen/Qwen3-235B-A22B-Instruct-2507

gguf будут тут: https://huggingface.co/unsloth/Qwen3-235B-A22B-Instruct-2507-GGUF

Попробовать онлайн: https://chat.qwen.ai/

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии