DeepSeek-V3.1 теперь можно запускать локально

Unsloth сделали то, что еще год назад казалось невозможным — ужали модель весом 715 ГБ до 170 ГБ, почти без потерь в качестве. Они использовали динамическую квантовку: важные слои остаются в 6–8 бит, а менее критичные ужимаются до меньшей разрядности. При этом для калибровки брали 2–3 миллиона токенов хороших данных, чтобы веса не «поехали».

В итоге получились динамические 1-бит GGUF, которые запускаются на обычном «железе» с 170 ГБ RAM. Есть даже однофайловая сборка TQ1_0 — удобно для Ollama.

Параметры по умолчанию:

—jinja (иначе не заработает чат-шаблон)

можно включать рассуждения: thinking = True

рекомендовано —temp 0.6 —top_p 0.95

MoE-слои лучше выгружать в RAM (-ot «.ffn_.*_exps.=CPU»)

для длинного контекста используйте KV-квантовки (q4_0, q5_1, iq4_nl и др.)

Пример запуска:

ollama run hf.co/unsloth/DeepSeek-V3.1-GGUF:TQ1_0 —temp 0.6 —top_p 0.95 —jinja моё мнение

Круто, что они пошли по пути умной квантовки, а не просто «урезать всё подряд». Так модель не теряет ключевые навыки. Я думаю, что в будущем можно пойти еще дальше:

брать средние модели (32B, 70B) и ужимать их до размеров уровня ниже, сохраняя качество.

делать набор «специализированных» моделей: например, маленькая 0.5B для JSON-линтинга, 3B для загрузки документов, 9B для поиска по вебу. Вместо одной «универсальной» модели на 32B, которая делает всё, но медленно и средне.

тренировать сразу с прицелом на квантовку (quantization-aware training), чтобы качество вообще не падало при сжатии.

Еще год назад 1.5B казались игрушкой, а теперь реально можно собрать рабочий стек из кучи небольших моделей, каждая из которых делает своё дело лучше, чем один «монстр».

И да — приятно, что теперь запустить самую большую опенсорс-модель локально можно без серверной фермы.

🔗 Веса — клик (https://huggingface.co/unsloth/DeepSeek-V3.1-GGUF)

✔️ Все полезные нейронки тут (https://umaai.site/)

👾 Друг Опенсурса (https://t.me/tch_net)

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”