Qwen2-Math — Alibaba Cloud выпустила серию LLM для решения математических задач любой сложности

Alibaba Cloud представила Qwen2-Math, новую серию LLM с открытым исходным кодом, предназначенную для решение математических задач. Модели основаны на платформе Qwen2, которая уже используется многими компаниями, преимущественно в Китае.

Новые возможности для математических вычислений

Qwen2-Math — это набор специализированных моделей, обученных на английском языке для решения математических задач разной сложности. Флагманская модель Qwen2-Math-72B-Instruct показывает высокую точность (84%) на бенчмарке MATH, содержащем 12500 сложных математических задач. Эта модель превосходит по качеству работы ИИ-модели от OpenAI, Anthropic и Google.

Высокая точность на разных уровнях сложности

Qwen2-Math демонстрирует отличные результаты не только на комплексных тестах, но и на бенчмарках для школьной (GSM8K — 96.7%) и университетской (College Math — 47.8%) математики.

Примечательно, что даже самая компактная модель в серии, Qwen2-Math-1.5B, показывает результаты, близкие к моделям, значительно превосходящим её по размеру.

Практическое применение математических LLM

Qwen2-Math открывает новые возможности для использования ИИ в задачах, требующих решения математических задач. Alibaba Cloud предлагает гибкие условия лицензирования, что делает Qwen2-Math доступным для стартапов, бизнеса и научных организаций.

В будущем разработчики планируют добавить поддержку других языков и усовершенствовать алгоритмы решения задач. Это сделает Qwen2-Math доступным для более широкой аудитории и откроет новые возможности для исследований и практических применений математики.

Попробовать модель на huggingface самостоятельно можно здесь.

Источник: habr.com

0 0 голоса

Рейтинг новости

23856

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”