«Сбер» открыл веса GigaChat Ultra, Kandinsky 5.0 и других моделей

На конференции AI Journey представители «Сбера» объявили, что компания открывает веса своих моделей для генерации текста, видео, изображений и аудио. Код и веса моделей доступны по лицензии MIT, в том числе для коммерческих проектов.

GigaChat Ultra и GigaChat Lightning

GigaChat — семейство больших языковых моделей на базе архитектуры MoE (Mixture of Experts). Компания отмечает, что разрабатывала их с нуля для русскоязычных задач. 

Самая мощная и большая модель в семействе — GigaChat Ultra Preview. Её обучение ещё продолжается, но уже сейчас по общим метрикам качества на русском языке она превосходит DeepSeek V3.1 в бенчмарке MERA.

GigaChat Lightning — самая компактная языковая модель в семействе, оптимизированная для локального запуска. По качеству ответов  на русском языке она превосходит Qwen3-4B. При этом модель работает быстрее, чем Qwen3-1.7B.

Модель

Параметры

Тип

Ссылка

GigaChat3-702B-A36B-preview

702 млрд общих и 36 млрд активных

fp8

Hugging Face

GigaChat3-702B-A36B-preview-bf16

702 млрд общих и 36 млрд активных

bf16

Hugging Face

GigaChat3-10B-A1.8B

10 млрд общих и 1,8 млрд активных 

fp8

Hugging Face

GigaChat3-10B-A1.8B-bf16

10 млрд общих и 1,8 млрд активных 

bf16

Hugging Face

GigaChat3-10B-A1.8B-base

10 млрд общих и 1,8 млрд активных 

pretrain

Hugging Face

Kandinsky 5.0

Kandinsky 5.0 — линейка моделей, которая включает в себя Image Lite для генерации изображений по тексту и их редактирования, а также две версии модели для генерации видео: быструю Video Lite и мощную Video Pro. Они нужны для как создавать видео как по текстовому описанию, так и по фотографии.

Kandinsky 5.0 Image Lite создаёт изображения в HD-разрешении, хорошо знает российский культурный год и может генерировать надписи на кириллице и латинице. Модель Kandinsky 5.0 Video Pro генерирует до 10 секунд HD-видео в 24 fps. Kandinsky 5.0 Video Lite оптимизировали для работы на домашних видеокартах от 12 Гб памяти.

Модель

Ссылка

Kandinsky 5.0 Video Pro

GitHub

Kandinsky 5.0 Video Lite

GitHub

Kandinsky 5.0 Image Lite

GitHub

Kandinsky 5.0 Image Editing

GitHub

GigaAM-3

GigaAM-v3 — открытый набор из пяти моделей для автоматического распознавания речи на русском языке (ASR), которые доступны для промышленного применения и коммерческого использования. На базе моделей можно проектировать голосовых ассистентов, анализаторы звонков, мультимедийных агентов, агрегаторов голосовых сообщений и другие проекты.

Модель доступна на Hugging Face: https://huggingface.co/ai-sage/GigaAM-v3

K-VAE 1.0

Генеративные модели создают контент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это нужно для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Чтобы увидеть контент, надо использовать кодировщик.

K-VAE 1.0 — обученные с нуля автокодировщики для изображений и видео, которые преобразуют медиа в скрытые представления и обратно. Они теперь так же доступны на GitHub: https://github.com/kandinskylab/kvae-1.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии