Подвинься, LLaMA! Новая open‑source LLM от Tencent — Hunyuan‑A13B — уже доступна для самостоятельного хостинга

Tencent только что выпустила новую open‑source модель под названием Hunyuan‑A13B‑Instruct. Весы модели открыты (насчёт кода — пока неясно), и она может работать локально (если у вас есть GPU уровня NVIDIA DGX B200). Если вам интересно, как она себя показывает, и вы хотите попробовать её в деле — ниже инструкции, как можно её быстро развернуть на арендованной видеокарте за несколько минут.

📎Перевод, оригинальная новость здесь.

Что такое Hunyuan‑A13B?

Hunyuan‑A13B‑Instruct это модель с архитектурой MoE (Mixture‑of‑Experts) с суммарно 80 миллиардами параметров, из которых при инференсе активны лишь 13 миллиардов. Это позволяет значительно снизить вычислительные затраты по сравнению с классическими (плотными) LLM.

Mixture‑of‑Experts (MoE) — это архитектура, в которой при обработке каждого входа активируется лишь подмножество «экспертных» подсетей. Это уменьшает нагрузку на вычислительные ресурсы, одновременно увеличивая масштаб модели. Специальный gating-механизм выбирает нужных «экспертов» динамически, в зависимости от входных данных.

Вот некоторые ключевые особенности:

Поддержка контекста до 256 тыс. токенов «из коробки».

Режимы быстрого и медленного мышления.

Grouped Query Attention (GQA) для более эффективного инференса.

Тонкая настройка под агентные задачи, с результатами бенчмарков на BFCL‑v3 и τ‑Bench.

Поддержка квантования, включая GPTQ.

Модель выглядит как серьёзный кандидат для локальных экспериментов — особенно в задачах с длинным контекстом и интеллектуальными агентами.

Шаг 1: Запуск инстанса на RunPod

Самый простой способ попробовать модель в деле — использовать RunPod (по этой реферальной можно получить между 5$ и 500$ в кредитах).

Для этого нам понадобится:

Сетевой раздел объёмом 300 ГБ

GPU B200 (менее мощные, скорее всего, не подойдут — требуется около 150 ГБ VRAM)

Образ с поддержкой PyTorch

Создание сетевого раздела:

Регион: выберите тот, где доступен B200 (на момент написания — EU-RO-1)

Размер: 300 ГБ

Стоимость: примерно $21/мес (оплата идёт даже при простое)

Создание пода

Тип GPU: B200

Образ: runpod/pytorch:2.8.0-py3.11-cuda12.8.1-cudnn-devel-ubuntu22.04 ⚠️ Более ранние версии могут не работать

Количество GPU: 1

Включаем: SSH и Jupyter

Подключаем: сетевой раздел (тот, что создали ранее)

Шаг 2: Установка зависимостей

Открываем терминал и вводим:

%pip install transformers tiktoken accelerate gptqmodel optimum

Шаг 3: Загружаем модель

Чтобы загрузки не шли в корневую директорию, укажем путь к кэшу на сетевом разделе:

from transformers import AutoTokenizer, AutoModelForCausalLM import torch import os import re os.environ[‘HF_HOME’] = ‘/workspace/hf-cache’ # model_path = ‘tencent/Hunyuan-A13B-Instruct’ tokenizer = AutoTokenizer.from_pretrained(model_path, local_files_only=False, trust_remote_code=True) model = AutoModelForCausalLM.from_pretrained(model_path, cache_dir=’/workspace/hf-cache/’, local_files_only=False, device_map=»auto», torch_dtype=torch.bfloat16, trust_remote_code=True) messages = [ { «role»: «user», «content»: «What does the frog say?» }, ] tokenized_chat = tokenizer.apply_chat_template(messages, tokenize=True, return_tensors=»pt», enable_thinking=True # Toggle thinking mode (default: True) ) outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=5000) output_text = tokenizer.decode(outputs[0]) print(output_text)Заметки:

При первом запуске скачается около 150 ГБ весов модели

Во время инференса используется примерно 153 ГБ видеопамяти (VRAM)

Загрузка модели в видеопамять может занять несколько минут

Если загрузка GPU (не только VRAM) увеличивается — значит, модель действительно работает

Если просто хотим попробовать на CPU, можно указать device_map=»cpu»В этом случае стоит убедиться, что у нас есть около 200 ГБ оперативной памяти и достаточно мощный процессор.

Стоимость

B200-под — 6,39 $/час

Сетевой раздел — 21 $/месяц, даже когда мы его не используем

Совет: выключаем под, когда не работаем с моделью 😉

Заметки по инструментам

Поддержки llama.cpp пока нет — PR #14425 ещё в процессе

В Python с transformers и bfloat16 всё работает без проблем

Бенчмарки

Официальные результаты размещены на Hugging Face и посчитаны бэкендом TRT-LLM (больше — лучше):

Model

Hunyuan-Large

Qwen2.5-72B

Qwen3-A22B

Hunyuan-A13B

MMLU

88.40

86.10

87.81

88.17

MMLU-Pro

60.20

58.10

68.18

67.23

MMLU-Redux

87.47

83.90

87.40

87.67

BBH

86.30

85.80

88.87

87.56

SuperGPQA

38.90

36.20

44.06

41.32

EvalPlus

75.69

65.93

77.60

78.64

MultiPL-E

59.13

60.50

65.94

69.33

MBPP

72.60

76.00

81.40

83.86

CRUX-I

57.00

57.63

70.13

CRUX-O

60.63

66.20

79.00

77.00

MATH

69.80

62.12

71.84

72.35

CMATH

91.30

84.80

91.17

GSM8k

92.80

91.50

94.39

91.83

GPQA

25.18

45.90

47.47

49.12

Hunyuan-A13B-Instruct демонстрирует впечатляюще конкурентоспособные результаты на различных бенчмарках — особенно в областях математики, естественных наук, агентных задач и других.

Мы сравнили её с рядом мощных моделей — результаты представлены ниже. — Tencent

Topic

Bench

OpenAI-o1-1217

DeepSeek R1

Qwen3-A22B

Hunyuan-A13B-Instruct

Mathematics

AIME 2024AIME 2025MATH

74.379.296.4

79.87094.9

85.781.594.0

87.376.894.3

Science

GPQA-DiamondOlympiadBench

7883.1

71.582.4

71.185.7

71.282.7

Coding

LivecodebenchFullstackbenchArtifactsBench

63.964.638.6

65.971.644.6

70.765.644.6

63.967.843

Reasoning

BBHDROPZebraLogic

80.490.281

83.792.278.7

88.990.380.3

89.191.184.7

InstructionFollowing

IF-EvalSysBench

91.882.5

88.377.7

83.474.2

84.776.1

TextCreation

LengthCtrlInsCtrl

60.174.8

55.969

53.373.7

55.471.9

NLU

ComplexNLUWord-Task

64.767.1

64.576.3

59.856.4

61.262.9

Agent

BDCL v3τ-BenchComplexFuncBenchC3-Bench

67.860.447.658.8

56.943.841.155.3

70.844.640.651.7

78.354.761.263.5

Заключение

Это одна из самых любопытных открытых MoE‑моделей на сегодняшний день. Она поддерживает длинный контекст, реализована с рядом продуманных архитектурных решений и достаточно проста в запуске.

Если хотите попробовать её самостоятельно, приведённая выше инструкция поможет быстро начать работу.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии