Alibaba представила Qwen-3-Max — языковую модель с 1 трлн параметров. Опережает GPT-5

Компания Alibaba представила свою самую мощную языковую модель в линейке Qwen3. Новая версия отличается заметным ростом производительности в задачах программирования и сценариях использования в качестве агентов.

Версия Qwen3-Max-Base содержит более 1 триллиона параметров и была предварительно обучена на 36 триллионах токенов.

Предварительная версия Qwen3-Max-Instruct уже занимает третью позицию в рейтинге Text Arena, опережая GPT-5-Chat. Полноценный релиз только улучшил результаты в области знаний, рассуждений, кодирования, следования инструкциям, агентных задач и многоязычного понимания. В Tau2-Bench — тесте оценки навыков агентов — Qwen3-Max-Instruct демонстрирует впечатляющий результат 74,8, превосходя Claude Opus 4 и DeepSeek V3.1.

Отдельно компания работает над версией ИИ для рассуждений — Qwen3-Max-Thinking, которая всё ещё обучается, но уже демонстрирует выдающийся потенциал. В тестовых условиях с инструментами и масштабированием вычислений она достигла результата 100% в сложных бенчмарках по рассуждению — AIME 25 и HMMT. Выпуск этой модели ожидается в ближайшее время.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”