DeepSeek: обучение модели R1 обошлось всего в $294 тысяч

Китайская компания в сфере искусственного интеллекта DeepSeek отчиталась, что потратила $294 тыс. на обучение своей модели R1 — это значительно меньше расходов, которые озвучили американские конкуренты по поводу своих разработок. Для этого DeepSeek задействовала 512 ускорителей Nvidia H800.

Релиз DeepSeek-R1 состоялся в январе этого года, а её успех побудил инвесторов по всему миру избавляться от акций технологических компаний, что привело к падению капитализации лидеров в разработке ИИ, включая Nvidia. С тех пор DeepSeek несколько раз обновила модель.

Расходы на обучение ИИ-моделей обусловлены использованием кластера мощных чипов в течение недель или месяцев для обработки крупных объёмов текста и кода.

В 2023 году генеральный директор OpenAI Сэм Альтман заявил, что обучение базовых моделей его компании обошлось в $100 млн, хотя разработчик не предоставил подробные данные ни по одному из своих релизов.

DeepSeek использовала ускоритель H800, который разработали специально для китайского рынка, ограничив поставки в КНР более мощных H100 и A100. Однако в июне американские официальные лица сообщили, что DeepSeek имеет доступ к значительным объёмам H100, закупленным после введения экспортного контроля США. Nvidia же настаивает, что DeepSeek применяла H800, а не H100.

Также DeepSeek впервые признала, что владеет A100. Она использовала эти ускорители «для подготовки к экспериментам с меньшей моделью». После этого этапа R1 обучалась в общей сложности 80 часов.

В своей статье на Nature DeepSeek впервые отреагировала на утверждения советника Белого дома и представителей американской индустрии ИИ, которые сделали в январе. Последние обвинили китайскую компанию в намеренном дистиллировании модели OpenAI для создания своей. Дистиллированные модели имеют меньший размер, поэтому не требуют больших вычислительных ресурсов, как более крупные модели. DeepSeek защищает дистиллирование моделей, поскольку это делает технологии на базе ИИ более доступными.

В январе DeepSeek указала, что использовала ИИ-модель открытым исходным кодом Llama AI от Meta* для создания некоторых усовершенствованных версий собственных моделей.

Данные для обучения V3 основывались на просканированных веб-страницах, содержащих «значительное количество ответов, сгенерированных моделью OpenAI» — «это может привести к тому, что базовая модель будет косвенно получать знания из других мощных моделей», следует из статьи DeepSeek. Однако компания утверждает, что это произошло непреднамеренно, а случайно.

*Meta Platforms признана экстремистской организацией, её деятельность в России запрещена

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”