Достаточно 64 килобайт: инженер показал, что для обучения нейросети не нужны терабайты RAM

Бывший разработчик Microsoft Дэйв Пламмер (Dave Plummer), опубликовал техническую демонстрацию, которая наглядно иллюстрирует базовые принципы обучения современных языковых моделей. В качестве вычислительной платформы использовалась ЭВМ, выпущенная около 47 лет назад.

Спецификации задействованного оборудования далеки от современных дата-центров: центральный процессор работает на тактовой частоте 6 МГц, а объем доступной оперативной памяти ограничен 64 килобайтами, но несмотря на эти рамки, на машине была запущена модель, полностью написанная на ассемблере для архитектуры столь старой машины. Суть эксперимента заключалась не в решении сложной когнитивной задачи, а в демонстрации «анатомии обучения». Перед моделью стояла цель — научиться выстраивать обратную последовательность из восьми цифр, алгоритм должен выявить структурное правило зависимости позиции выходного токена от входного, что является упрощенной иллюстрацией работы механизма внимания в больших языковых моделях (LLM).

EXPOSED: The Dirty Little Secret of AI (On a 1979 PDP-11)

Для адаптации алгоритма к столь ограниченным ресурсам потребовался ряд инженерных компромиссов. Итоговая модель содержит всего 1 216 параметров, а вычисления производятся с фиксированной точностью. Каждый такт процессора был оптимизирован для выполнения матричных операций без использования библиотек вроде PyTorch или CUDA. По данным видеозаписи эксперимента, процесс обучения занял примерно 350 итераций. На компьютере PDP-11/44, оснащенном платой кэш-памяти, достижение 100% точности выполнения задачи по реверсированию последовательности потребовало около 3,5 минут. Для сравнения, более ранние версии кода на на аналогичном «железе» требовали для полного цикла обучения более шести часов.

Пламмер отдельно подчеркивает, что демонстрация не является попыткой принизить современные достижения в области ИИ. Напротив, она призвана показать, что принципиальная схема работы нейросети остается прежней и воспроизводимой даже на архаичном оборудовании. «Эта старая машина не мыслит в каком-то мистическом смысле. Она просто выполняет арифметические действия, чтобы обновить несколько тысяч тщательно сохранённых чисел. В этом вся суть», — комментирует разработчик. По его мнению, ключевое различие между такой моделью и современными моделями уровня GPT заключается исключительно в масштабе: количестве параметров, объеме данных и доступной вычислительной мощности.

Вот на таком «монстре» удалось запустить ИИ

Вот на таком «монстре» удалось запустить ИИ

Интересным аспектом проекта является объем финального бинарного файла. Исполняемый код модели занимает 6 179 байт и способен функционировать в системе с 32 КБ свободной памяти. Эксперимент также поднимает вопрос о рациональности использования ресурсов в современной индустрии. В условиях, когда рост вычислительных мощностей начинает упираться в физические и экономические ограничения, подходы к оптимизации кода, применявшиеся в эпоху PDP-11, могут снова стать актуальными для снижения себестоимости обучения и инференса нейросетей.

Как вы считаете, насколько применимы подходы «старой школы» оптимизации машинного кода в современных реалиях разработки крупных ИИ-моделей, или масштаб современных данных уже не оставляет места для столь низкоуровневого контроля? высказывайтесь в комментариях.

Тест по теме Тест: угадайте игру по описанию от нейросети! 11 вопросов

Святослав Лецкий 6 июля 2022

Разработчики стараются придумывать логичные и увлекательные сюжеты, однако безумной нейросети хватит пары секунд, чтобы извратить их до неузнаваемости. Мы пропустили через искусственный интеллект описания известных игр — но сможете ли вы угадать, о каком проекте речь? Заходите в тест и постарайтесь раскусить нейросеть!

Примечание. Жирным шрифтом выделен текст, который мы ввели в нейросеть. Всё остальное — полёт фантазии безумного ИИ. Мы никак не корректировали версию нейросети, только удалили названия игр. А чтобы не было сомнений в подлинности текстов, скриншоты хранятся здесь. Начать PC НовостиЖелезо и технологии

Источник: vgtimes.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии