Потратив более шести месяцев на разработку и год на вычисления с помощью графических процессоров, Hugging Face опубликовала бесплатное руководство с открытым исходным кодом, в котором содержатся подробные инструкции по эффективному обучению крупных моделей ИИ.
«Руководство по работе с ультрамасштабными вычислениями», состоящее почти из 100 страниц и 30 000 слов, основано на более чем 4000 экспериментах по масштабированию с использованием до 512 графических процессоров. В этом подробном руководстве рассматриваются такие сложные темы, как 5D-параллелизм, технология ZeRO и ядра CUDA. В нём представлены практические сведения о последних событиях в отрасли, а также объясняется, как DeepSeek удалось обучить свою модель всего за 5 миллионов долларов, почему Mistral выбрала архитектуру MoE и какие методы распараллеливания Meta* использовала для Llama 3.
Чтобы помочь читателям применить теорию на практике, авторы предоставляют два дополнительных репозитория кода: «picotron» для образовательных целей и «nanotron» для готовых к использованию реализаций. В руководстве используются интерактивные графики и виджеты, чтобы сделать сложные концепции более доступными.
Томас Вулф, соучредитель и технический директор Hugging Face, подчёркивает более широкую миссию руководства: «Самым важным фактором для демократизации ИИ всегда будет обучение всех тому, как создавать ИИ и, в частности, как создавать, обучать и дорабатывать высокопроизводительные модели».
Публикация посвящена значительному пробелу в знаниях в этой отрасли. Крупные компании, занимающиеся искусственным интеллектом, такие как OpenAI, приобрели ценный практический опыт в результате многократных циклов обучения своих больших моделей. Этот опыт стал настолько ценным, что сотрудники, обладающие этими знаниями, часто получают выгодные предложения от конкурирующих компаний. Публикуя эту информацию в свободном доступе, Hugging Face стремится поделиться этим опытом с более широким сообществом специалистов по искусственному интеллекту.
То, что начиналось как запланированная публикация в блоге, превратилось в обширный ресурс, который вскоре будет доступен в виде 100-страничной книги.
*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации
Источник
Источник: habr.com