Представлены младшие ИИ-модели Qwen-3.5: они демонстрируют впечатляющие результаты

Команда Qwen (Alibaba Cloud) представила сразу пять компактных ИИ-моделей из серии Qwen 3.5: на 9 млрд, на 4 млрд, на 2 млрд и на 800 млн параметров. Все модели имеют открытый исходный код и распространяются по лицензии Apache 2.0 — она позволяет свободно использовать, модифицировать и распространять программное обеспечение с минимальными ограничениями.

Согласно опубликованному разработчиками изображению, несмотря на свою так называемую компактность ИИ-модели демонстрируют довольно высокую производительность в бенчмарках. И королём здесь выступает 9B-модель. Так, например, в бенчмарке MMLU-Pro она набирает 82,5 балла против 80.8 у GPT-OSS-120B и 80.9 у Qwen3-30B-A3B. В GPQA Diamond превосходство ещё более впечатляющее — 81.7 против 73.4 у Qwen3-30B-A3B. И, конечно же, нельзя обойти стороной агентные задачи, которые ещё совсем недавно были недоступны даже моделям втрое крупнее. В BFCL-V4 (tool use) 9B-модель набирает 66,1 балл, а в TAU2-Bench — 79,1. Изображение: QWEN

В Qwen3.5 реализованы следующие улучшения: раннее обучение на основе мультимодальных токенов обеспечивает сопоставимость результатов с Qwen3 в разных поколениях и превосходит модели Qwen3-VL по некоторым параметрам, например, рассуждение, кодирование, агенты и визуальное восприятие; расширена поддержка до 201 языка и диалекта для обеспечения инклюзивного внедрения по всему миру с учётом нюансов культурных и региональных особенностей; почти 100% эффективность многомодального обучения по сравнению с обучением только текстом и асинхронными фреймворками обучения с подкреплением, поддерживающими масштабные агентские структуры и оркестровку среды.

Более подробную информацию можно найти на официальном сайте Qwen.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости