Сегодня звёздный час маленьких моделей. Сразу после выхода AI‑модели, которая помещается даже в смарт‑часы от Liquid AI, стартапа MIT, и модели Google, способной работать прямо на смартфоне, Nvidia тоже вступает в игру — представив новую компактную языковую модель (SLM) Nemotron‑Nano-9B‑V2. Она показала лучшие результаты в своём классе на ряде тестов и снабжена функцией переключения режима «reasoning» — то есть самопроверки перед тем, как выдать ответ.
Хотя 9 миллиардов параметров больше, чем у некоторых «малюток» с несколькими миллионами параметров, Nvidia подчёркивает: это заметное сокращение по сравнению с первоначальным размером в 12 миллиардов. Более того, модель оптимизирована так, чтобы работать на одной видеокарте Nvidia A10.
Как пояснил директор по пост‑обучению моделей Nvidia Алексей Кучаев в X в ответ на мой вопрос: «12 миллиардов параметров урезали до 9, чтобы она точно помещалась в A10 — популярный выбор для внедрения. Это ещё и гибридная модель, которая позволяет обрабатывать более крупные пакеты данных и быть до 6 раз быстрее аналогичных трансформеров сопоставимого размера».
Для сравнения: многие флагманские LLM сегодня переваливают за планку в 70+ миллиардов параметров (напомним, параметры — это внутренние настройки, управляющие поведением модели: чем их больше, тем она мощнее, но тем выше вычислительные издержки).
Модель работает с множеством языков: английским, немецким, испанским, французским, итальянским, японским, а также — в расширенных описаниях — с корейским, португальским, русским и китайским. Она подходит как для следования инструкциям, так и для генерации кода.
Nemotron‑Nano-9B‑V2 и её датасеты предобучения уже доступны на Hugging Face и в каталоге моделей Nvidia.
Сплав архитектур Transformer и Mamba
В основе модели лежит Nemotron‑H — набор гибридных Mamba‑Transformer‑моделей, ставших фундаментом для последних решений компании.
Большинство популярных LLM построены на чистой архитектуре Transformer, полностью завязанной на механизме attention. Но по мере увеличения длины последовательностей такие модели начинают требовать всё больше памяти и вычислительных ресурсов.
В отличие от них, Nemotron‑H и другие проекты, использующие архитектуру Mamba, разработанную учёными из Карнеги‑Меллон и Принстона, вплетают в структуру селективные модели пространств состояний (SSM), которые способны удерживать контекст и работать с очень длинными последовательностями входных и выходных данных.
Эти слои масштабируются линейно по длине последовательности и позволяют обрабатывать куда более длинные тексты, чем стандартное self‑attention, не обременяя систему чрезмерными затратами.
Гибрид Mamba‑Transformer снижает расходы, подменяя большую часть attention‑слоёв слоями с линейным временем работы, что даёт 2–3-кратный рост пропускной способности при работе с длинным контекстом при сохранении точности.
Не только Nvidia: и другие исследовательские центры, например Ai2, уже представили модели, построенные на архитектуре Mamba.
Переключатель рассуждений в языке
Nemotron‑Nano-9B‑v2 позиционируется как единая текстовая модель для чата и рассуждений, обученная с нуля.
По умолчанию система генерирует цепочку рассуждений перед выдачей финального ответа, но пользователь может отключить эту функцию с помощью простых управляющих токенов вроде /think или /no_think.
Кроме того, модель вводит механизм управления «бюджетом размышлений» во время работы, позволяющий разработчикам ограничивать количество токенов, выделяемых на внутренние рассуждения, прежде чем модель завершит ответ.
Этот инструмент помогает искать баланс между точностью и скоростью — особенно в таких областях, как службы поддержки или автономные агенты.
Обнадёживающие результаты тестов
Оценка показала конкурентную точность по сравнению с другими открытыми компактными моделями. В режиме reasoning on с пакетом NeMo‑Skills Nemotron‑Nano-9B‑v2 достигла 72,1% на AIME25, 97,8% на MATH500, 64,0% на GPQA и 71,1% на LiveCodeBench.
Также зафиксированы результаты на тестах по следованию инструкциям и длинному контексту: 90,3% на IFEval, 78,9% на RULER 128K, а также небольшие, но заметные улучшения на BFCL v3 и HLE.
Во всех дисциплинах Nano-9B‑v2 показала более высокую точность, чем Qwen3-8B, с которым её чаще всего сравнивают.
Nvidia иллюстрирует эти данные кривыми «точность против бюджета», показывающими, как растёт качество по мере увеличения числа токенов, выделенных на рассуждения. Компания подчёркивает: грамотное распределение «бюджета» позволяет разработчикам оптимизировать и качество, и задержки в рабочих системах.
Обучение на синтетических датасетах
И Nano, и семейство Nemotron‑H обучались на смеси отобранных вручную, веб‑данных и синтетических наборов.
Корпусы включают тексты общего назначения, код, математику, материалы по науке, юриспруденции и финансам, а также датасеты в формате «вопрос‑ответ» для настройки моделей.
Nvidia подтверждает: для усиления работы на сложных тестах использовались синтетические цепочки рассуждений, сгенерированные другими крупными моделями.
Делегируйте рутинные задачи вместе с BotHub! По ссылке вы можете получить 100 000 бесплатных капсов и приступить к работе с нейросетями прямо сейчас.
Источник: habr.com