На Международной конференции по машинному обучению (ICML) исследователи из Intel Labs и Института наук Вейцмана представили значительный прогресс в спекулятивном декодировании. Новая техника позволяет любой небольшой «черновой» модели ускорять любую большую языковую модель (LLM) независимо от различий в словарном запасе.
«Мы решили основную неэффективность генеративного ИИ. Наше исследование показывает, как превратить спекулятивное ускорение в универсальный инструмент,» — отметил Орен Перег, старший научный сотрудник Группы обработки естественного языка Intel Labs.
Спекулятивное декодирование — это метод оптимизации логического вывода, делающий LLM быстрее и эффективнее без потери точности. Он работает путём объединения небольшой, быстрой модели с более крупной, точной.
Принцип работы:
Это значительно сокращает количество циклов вычисления на выходной токен. Например, если традиционная LLM вычисляет каждое слово фразы «Париж, известный город…» отдельно, то со спекулятивным декодированием малая модель предлагает всю фразу сразу, а большая лишь проверяет её.
Метод, разработанный Intel и Институтом Вейцмана, устраняет предыдущие ограничения, такие как необходимость общих словарей или совместно обученных семейств моделей. Это делает спекулятивное декодирование практичным для гетерогенных моделей (от разных разработчиков и экосистем).
Ключевые преимущества:
Этот прорыв способствует открытости, взаимодействию и экономически эффективному развёртыванию генеративного ИИ от облака до периферии, позволяя разработчикам и предприятиям оптимизировать свои решения в зависимости от потребностей в производительности и аппаратных ограничениях.
Павлик Олександр
Источник: ru.gecid.com