Hugging Face выпускает небольшую языковую модель, которая в большинстве случаев превосходит Qwen и Llama

Исследовательская группа Hugging Face представила SmolLM2, свою новейшую языковую модель. Несмотря на то, что она не открывает новых горизонтов, она является ценным дополнением к портфолио AI-технологий компании.

Эффективность модели обусловлена тщательным объединением различных источников для набора данных из 11 триллионов токенов и методичным подходом к обучению. Команда начала со сбалансированного сочетания веб-контента и примеров программирования, а затем добавила специализированные наборы данных для математических задач и программирования.

Исследователи оценивали эффективность модели после каждого этапа обучения, чтобы выявить недостатки, а затем соответствующим образом корректировали обучающие данные. Они создали собственные наборы данных, в том числе FineMath для сложных математических задач, Stack-Edu для хорошо документированного кода и SmolTalk для задач, связанных с общением.

Компания Hugging Face разработала собственные наборы данных для моделей SmolLM2 и сделала их доступными в открытом исходном коде.

После первоначального обучения команда доработала SmolLM2 с помощью тонкой настройки инструкций и обучения на примерах, чтобы улучшить понимание задач. Они использовали обучение с подкреплением, чтобы помочь модели генерировать более подходящие для пользователя ответы.

В тестах на знания и понимание SmolLM2 показывает лучшие результаты, чем модели схожего размера, такие как Qwen2.5-1.5B и Llama3.2-1B, в нескольких областях, но не во всех.

Во многих тестах модель Hugging Face превосходит своих конкурентов Meta и Qwen, но, например, довольно плохо справляется с решением математических задач.

Помимо основной версии с 1,7 миллиарда параметров, команда разработала две версии поменьше с 360 и 135 миллионами параметров, которые показали хорошие результаты для своего размера.

Hugging Face стал неотъемлемой частью разработки AI с открытым исходным кодом благодаря своему обширному хранилищу весов моделей. Компания стремится активно продвигать исследования, а не просто хранить данные для других.

Компания, поддерживаемая Google, недавно выпустила библиотеку AI-агентов и создала альтернативу с открытым исходным кодом для Deep Research от OpenAI. SmolLM2 использует проверенные подходы для создания эффективных языковых моделей благодаря высококачественному набору данных и многоэтапному обучению. Хотя он соответствует аналогичным моделям от Meta* и Qwen, его практическая ценность, вероятно, заключается в выполнении небольших задач на устройствах с ограниченной вычислительной мощностью, таких как смартфоны.

Такое развитие событий кажется естественным шагом для Hugging Face как крупного игрока на рынке AI. В отличие от Meta и Qwen, которые делятся только весами моделей, Hugging Face придерживается полного подхода с открытым исходным кодом, делая свои данные для обучения доступными для всех.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”