Андрей Карпатый представил nanochat — проект полного цикла создания LLM всего за 100 долларов

ML-инженер и бывший разработчик OpenAI Андрей Карпатый представил nanochat — это открытый проект полного цикла создания LLM. Обучение модели обойдётся примерно в 100 долларов, если арендовать мощности у облачного провайдера.

Nanochat — проект для курса LLM101n от Eureka Labs. В репозитории есть всё необходимое для обучения языковой модели, включая собственный токенизатор на Rust, систему подкачки датасета FineWeb-EDU, скрипты для файнтюнинга, инференса и сбора метрик. Проект поставляется со встроенным веб-интерфейсом, чтобы с готовой моделью можно было пообщаться.

Для обучения модели нужен инстанс с 8 видеокартами Nvidia H100. Обучение в таком случае займёт около четырёх часов. Если арендовать мощности у облачного провайдера, то час в среднем будет стоить 24 доллара, а полный цикл — примерно 100 долларов. Процесс обучения запускается с помощью скрипта speedrun.sh, а веб-чат — командой python -m scripts.chat_web.

С помощью команды cat report.md можно вывести подробный отчёт обучения. В терминале появится примерно такая таблица:

Карпатый отмечает, что главная цель проекта — создать компактный, но полный цикл обучения языковой модели, который можно запустить всего одной командой. Это удобно для обучения и доработки. На базе nanochat можно строить более мощные нейросети и добавлять интеграции. Глобальная цель проекта заключается в том, чтобы улучшить качество микромоделей с бюджетом на обучение до тысячи долларов. 

Код nanochat открыт и доступен на GitHub. В репозитории есть все необходимые файлы и инструкции.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии