На конференции AI Journey представители «Сбера» объявили, что компания открывает веса своих моделей для генерации текста, видео, изображений и аудио. Код и веса моделей доступны по лицензии MIT, в том числе для коммерческих проектов.
GigaChat Ultra и GigaChat Lightning
GigaChat — семейство больших языковых моделей на базе архитектуры MoE (Mixture of Experts). Компания отмечает, что разрабатывала их с нуля для русскоязычных задач.
Самая мощная и большая модель в семействе — GigaChat Ultra Preview. Её обучение ещё продолжается, но уже сейчас по общим метрикам качества на русском языке она превосходит DeepSeek V3.1 в бенчмарке MERA.
GigaChat Lightning — самая компактная языковая модель в семействе, оптимизированная для локального запуска. По качеству ответов на русском языке она превосходит Qwen3-4B. При этом модель работает быстрее, чем Qwen3-1.7B.
Модель
Параметры
Тип
Ссылка
GigaChat3-702B-A36B-preview
702 млрд общих и 36 млрд активных
fp8
Hugging Face
GigaChat3-702B-A36B-preview-bf16
702 млрд общих и 36 млрд активных
bf16
Hugging Face
GigaChat3-10B-A1.8B
10 млрд общих и 1,8 млрд активных
fp8
Hugging Face
GigaChat3-10B-A1.8B-bf16
10 млрд общих и 1,8 млрд активных
bf16
Hugging Face
GigaChat3-10B-A1.8B-base
10 млрд общих и 1,8 млрд активных
pretrain
Hugging Face
Kandinsky 5.0
Kandinsky 5.0 — линейка моделей, которая включает в себя Image Lite для генерации изображений по тексту и их редактирования, а также две версии модели для генерации видео: быструю Video Lite и мощную Video Pro. Они нужны для как создавать видео как по текстовому описанию, так и по фотографии.
Kandinsky 5.0 Image Lite создаёт изображения в HD-разрешении, хорошо знает российский культурный год и может генерировать надписи на кириллице и латинице. Модель Kandinsky 5.0 Video Pro генерирует до 10 секунд HD-видео в 24 fps. Kandinsky 5.0 Video Lite оптимизировали для работы на домашних видеокартах от 12 Гб памяти.
Модель
Ссылка
Kandinsky 5.0 Video Pro
GitHub
Kandinsky 5.0 Video Lite
GitHub
Kandinsky 5.0 Image Lite
GitHub
Kandinsky 5.0 Image Editing
GitHub
GigaAM-3
GigaAM-v3 — открытый набор из пяти моделей для автоматического распознавания речи на русском языке (ASR), которые доступны для промышленного применения и коммерческого использования. На базе моделей можно проектировать голосовых ассистентов, анализаторы звонков, мультимедийных агентов, агрегаторов голосовых сообщений и другие проекты.
Модель доступна на Hugging Face: https://huggingface.co/ai-sage/GigaAM-v3
K-VAE 1.0
Генеративные модели создают контент в «скрытом» пространстве, нечитаемом для человеческого глаза. Это нужно для более эффективного, быстрого и менее требовательного к памяти обучения и применения такого рода моделей. Чтобы увидеть контент, надо использовать кодировщик.
K-VAE 1.0 — обученные с нуля автокодировщики для изображений и видео, которые преобразуют медиа в скрытые представления и обратно. Они теперь так же доступны на GitHub: https://github.com/kandinskylab/kvae-1.
Источник: habr.com