Tencent представила Hunyuan-Large — крупнейшую открытую модель с 389 миллиардами параметров

Недавно вышедшая Hunyuan-Large от Tencent, кажется, немного прошла мимо внимания широкой аудитории, а ведь это по-настоящему значимое событие в мире ИИ. На первый взгляд — очередная модель, но на деле — это крупнейшая открытая MoE (Mixture of Experts) модель на основе Transformer с впечатляющими 389 миллиардами параметров и 52 миллиардами активных параметров! Давайте разберёмся, почему это настолько важно и чем Hunyuan-Large может удивить даже искушённых специалистов.

Основные достоинства модели:

Возможность обработки супер-длинных контекстов — поддержка текстов до 256 тысяч токенов. Это значит, что модель может легко справляться с массивными документами, сохраняя связность и внимание к деталям даже в самых длинных текстах.

Эффективность использования памяти — Hunyuan-Large задействует инновационные методы, такие как сжатие кеша и адаптивные уровни обучения для «экспертов», что позволяет снижать нагрузку на ресурсы и поддерживать высокую производительность.

Точность на уровне лучших — модель уверенно показывает себя на бенчмарках вроде MMLU, CMMLU и других. Она не просто конкурирует, но и превосходит ряд известных моделей в задачах на понимание и анализ текста.

Итак, если вы ещё не обратили внимание на эту модель — самое время присмотреться! Tencent открывает доступ к Hunyuan-Large, приглашая исследователей и разработчиков к сотрудничеству и совместной работе над расширением границ искусственного интеллекта. Ну и ждем 32b, 14b и 7b версии!На Huggingface имеются:1. Демо-версия2. Претренерованная модель на 800гб: Hunyuan-Large pre-trained model 3. Инструкт модель на 800гб: Hunyuan-Large-Instruct 4. Инструкт модель на 400гб: Hunyuan-Large-Instruct-FP8

Пара бенчмарков:Hunyuan-Large pre-trained model

Hunyuan-Large pre-trained model

Hunyuan-Large-Instruct

Hunyuan-Large-Instruct

Источник: habr.com

0 0 голоса

Рейтинг новости

13156

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”