Tencent только что выпустила новую open‑source модель под названием Hunyuan‑A13B‑Instruct. Весы модели открыты (насчёт кода — пока неясно), и она может работать локально (если у вас есть GPU уровня NVIDIA DGX B200). Если вам интересно, как она себя показывает, и вы хотите попробовать её в деле — ниже инструкции, как можно её быстро развернуть на арендованной видеокарте за несколько минут.
📎Перевод, оригинальная новость здесь.
Что такое Hunyuan‑A13B?
Hunyuan‑A13B‑Instruct это модель с архитектурой MoE (Mixture‑of‑Experts) с суммарно 80 миллиардами параметров, из которых при инференсе активны лишь 13 миллиардов. Это позволяет значительно снизить вычислительные затраты по сравнению с классическими (плотными) LLM.
Mixture‑of‑Experts (MoE) — это архитектура, в которой при обработке каждого входа активируется лишь подмножество «экспертных» подсетей. Это уменьшает нагрузку на вычислительные ресурсы, одновременно увеличивая масштаб модели. Специальный gating-механизм выбирает нужных «экспертов» динамически, в зависимости от входных данных.
Вот некоторые ключевые особенности:
Поддержка контекста до 256 тыс. токенов «из коробки».
Режимы быстрого и медленного мышления.
Grouped Query Attention (GQA) для более эффективного инференса.
Тонкая настройка под агентные задачи, с результатами бенчмарков на BFCL‑v3 и τ‑Bench.
Поддержка квантования, включая GPTQ.
Модель выглядит как серьёзный кандидат для локальных экспериментов — особенно в задачах с длинным контекстом и интеллектуальными агентами.
Шаг 1: Запуск инстанса на RunPod
Самый простой способ попробовать модель в деле — использовать RunPod (по этой реферальной можно получить между 5$ и 500$ в кредитах).
Для этого нам понадобится:
Сетевой раздел объёмом 300 ГБ
GPU B200 (менее мощные, скорее всего, не подойдут — требуется около 150 ГБ VRAM)
Образ с поддержкой PyTorch
Создание сетевого раздела:
Регион: выберите тот, где доступен B200 (на момент написания — EU-RO-1)
Размер: 300 ГБ
Стоимость: примерно $21/мес (оплата идёт даже при простое)
Создание пода
Тип GPU: B200
Образ: runpod/pytorch:2.8.0-py3.11-cuda12.8.1-cudnn-devel-ubuntu22.04 ⚠️ Более ранние версии могут не работать
Количество GPU: 1
Включаем: SSH и Jupyter
Подключаем: сетевой раздел (тот, что создали ранее)
Шаг 2: Установка зависимостей
Открываем терминал и вводим:
%pip install transformers tiktoken accelerate gptqmodel optimum
Шаг 3: Загружаем модель
Чтобы загрузки не шли в корневую директорию, укажем путь к кэшу на сетевом разделе:
from transformers import AutoTokenizer, AutoModelForCausalLM import torch import os import re os.environ[‘HF_HOME’] = ‘/workspace/hf-cache’ # model_path = ‘tencent/Hunyuan-A13B-Instruct’ tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=False, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(model_path, cache_dir=’/workspace/hf-cache/’, local_files_only=False, device_map=»auto», torch_dtype=torch.bfloat16, trust_remote_code=True) messages = [ { «role»: «user», «content»: «What does the frog say?» }, ] tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors=»pt», enable_thinking=True # Toggle thinking mode (default: True) ) outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=5000) output_text = tokenizer.decode(outputs[0]) print(output_text)Заметки:
При первом запуске скачается около 150 ГБ весов модели
Во время инференса используется примерно 153 ГБ видеопамяти (VRAM)
Загрузка модели в видеопамять может занять несколько минут
Если загрузка GPU (не только VRAM) увеличивается — значит, модель действительно работает
Если просто хотим попробовать на CPU, можно указать device_map=»cpu»В этом случае стоит убедиться, что у нас есть около 200 ГБ оперативной памяти и достаточно мощный процессор.
Стоимость
B200-под — 6,39 $/час
Сетевой раздел — 21 $/месяц, даже когда мы его не используем
Совет: выключаем под, когда не работаем с моделью 😉
Заметки по инструментам
Поддержки llama.cpp пока нет — PR #14425 ещё в процессе
В Python с transformers и bfloat16 всё работает без проблем
Бенчмарки
Официальные результаты размещены на Hugging Face и посчитаны бэкендом TRT-LLM (больше — лучше):
Model
Hunyuan-Large
Qwen2.5-72B
Qwen3-A22B
Hunyuan-A13B
MMLU
88.40
86.10
87.81
88.17
MMLU-Pro
60.20
58.10
68.18
67.23
MMLU-Redux
87.47
83.90
87.40
87.67
BBH
86.30
85.80
88.87
87.56
SuperGPQA
38.90
36.20
44.06
41.32
EvalPlus
75.69
65.93
77.60
78.64
MultiPL-E
59.13
60.50
65.94
69.33
MBPP
72.60
76.00
81.40
83.86
CRUX-I
57.00
57.63
—
70.13
CRUX-O
60.63
66.20
79.00
77.00
MATH
69.80
62.12
71.84
72.35
CMATH
91.30
84.80
—
91.17
GSM8k
92.80
91.50
94.39
91.83
GPQA
25.18
45.90
47.47
49.12
Hunyuan-A13B-Instruct демонстрирует впечатляюще конкурентоспособные результаты на различных бенчмарках — особенно в областях математики, естественных наук, агентных задач и других.
Мы сравнили её с рядом мощных моделей — результаты представлены ниже. — Tencent
Topic
Bench
OpenAI-o1-1217
DeepSeek R1
Qwen3-A22B
Hunyuan-A13B-Instruct
Mathematics
AIME 2024AIME 2025MATH
74.379.296.4
79.87094.9
85.781.594.0
87.376.894.3
Science
GPQA-DiamondOlympiadBench
7883.1
71.582.4
71.185.7
71.282.7
Coding
LivecodebenchFullstackbenchArtifactsBench
63.964.638.6
65.971.644.6
70.765.644.6
63.967.843
Reasoning
BBHDROPZebraLogic
80.490.281
83.792.278.7
88.990.380.3
89.191.184.7
InstructionFollowing
IF-EvalSysBench
91.882.5
88.377.7
83.474.2
84.776.1
TextCreation
LengthCtrlInsCtrl
60.174.8
55.969
53.373.7
55.471.9
NLU
ComplexNLUWord-Task
64.767.1
64.576.3
59.856.4
61.262.9
Agent
BDCL v3τ-BenchComplexFuncBenchC3-Bench
67.860.447.658.8
56.943.841.155.3
70.844.640.651.7
78.354.761.263.5
Заключение
Это одна из самых любопытных открытых MoE‑моделей на сегодняшний день. Она поддерживает длинный контекст, реализована с рядом продуманных архитектурных решений и достаточно проста в запуске.
Если хотите попробовать её самостоятельно, приведённая выше инструкция поможет быстро начать работу.
Источник: habr.com