Nvidia выкатила нейросеть Nemotron-4 340B — настоящую «убийцу» GPT-4o

Это бесплатное семейство нейросетей, которое найдет широкое применение, в том числе для обучения генеративного ИИ.

14 июня компания Nvidia представила серию открытых моделей Nemotron-4 340B, которые разработчики могут использовать для создания синтетических данных. Они предназначены для применения в коммерции, включая здравоохранение, финансы, производство и розничную торговлю. Качественные обучающие данные — ключевой фактор для эффективной работы LLM, но надёжные наборы данных могут быть слишком дорогими и труднодоступными. Nemotron-4 340B даёт разработчикам бесплатный и масштабируемый способ создания синтетических данных.

Ее обучали на более чем 50 языках естественного общения и свыше 40 языках программирования — всего на 9 трлн токенах. Архитектура языковой модели основана на двух методах: Grouped-Query Attention (GQA) и Rotary Position Embeddings (RoPE). Однако длина контекста в модели ограничена 4096 токенами.

Модель представлена в виде Nemotron-4−340B-Base, Nemotron-4−340B-Instruct и Nemotron-4−340B-Reward, где:

Base — отвечает за генерацию синтетических данных;Instruct — отвечает за ведение чата и выполнение инструкций;Reward — base-модель с дополнительным линейным слоем для обучения с использованием нового reward-подхода.Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
2143
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии