Китайская компания в сфере искусственного интеллекта DeepSeek отчиталась, что потратила $294 тыс. на обучение своей модели R1 — это значительно меньше расходов, которые озвучили американские конкуренты по поводу своих разработок. Для этого DeepSeek задействовала 512 ускорителей Nvidia H800.
Релиз DeepSeek-R1 состоялся в январе этого года, а её успех побудил инвесторов по всему миру избавляться от акций технологических компаний, что привело к падению капитализации лидеров в разработке ИИ, включая Nvidia. С тех пор DeepSeek несколько раз обновила модель.
Расходы на обучение ИИ-моделей обусловлены использованием кластера мощных чипов в течение недель или месяцев для обработки крупных объёмов текста и кода.
В 2023 году генеральный директор OpenAI Сэм Альтман заявил, что обучение базовых моделей его компании обошлось в $100 млн, хотя разработчик не предоставил подробные данные ни по одному из своих релизов.
DeepSeek использовала ускоритель H800, который разработали специально для китайского рынка, ограничив поставки в КНР более мощных H100 и A100. Однако в июне американские официальные лица сообщили, что DeepSeek имеет доступ к значительным объёмам H100, закупленным после введения экспортного контроля США. Nvidia же настаивает, что DeepSeek применяла H800, а не H100.
Также DeepSeek впервые признала, что владеет A100. Она использовала эти ускорители «для подготовки к экспериментам с меньшей моделью». После этого этапа R1 обучалась в общей сложности 80 часов.
В своей статье на Nature DeepSeek впервые отреагировала на утверждения советника Белого дома и представителей американской индустрии ИИ, которые сделали в январе. Последние обвинили китайскую компанию в намеренном дистиллировании модели OpenAI для создания своей. Дистиллированные модели имеют меньший размер, поэтому не требуют больших вычислительных ресурсов, как более крупные модели. DeepSeek защищает дистиллирование моделей, поскольку это делает технологии на базе ИИ более доступными.
В январе DeepSeek указала, что использовала ИИ-модель открытым исходным кодом Llama AI от Meta* для создания некоторых усовершенствованных версий собственных моделей.
Данные для обучения V3 основывались на просканированных веб-страницах, содержащих «значительное количество ответов, сгенерированных моделью OpenAI» — «это может привести к тому, что базовая модель будет косвенно получать знания из других мощных моделей», следует из статьи DeepSeek. Однако компания утверждает, что это произошло непреднамеренно, а случайно.
*Meta Platforms признана экстремистской организацией, её деятельность в России запрещена
Источник: habr.com