Google Research анонсировала технологию Speculative Cascades — гибридный подход, который объединяет сразу два проверенных метода ускорения генерации текста и меняет правила игры на рынке LLM. Этот способ позволяет делать работу нейросетей быстрее и дешевле, не жертвуя качеством ответа, а в некоторых случаях даже улучшая его.
Большие языковые модели сегодня лежат в основе чат-ботов, поисковых систем и интеллектуальных ассистентов. Но их главный минус — это огромные затраты вычислительных ресурсов, что напрямую влияет на стоимость и скорость. Для массового внедрения таких систем нужно найти баланс. С одной стороны — быстрые ответы и низкие затраты, а с другой — точность и надёжность.
Визуальное представление компромиссов, предлагаемых стандартными каскадами (слева) и спекулятивным декодированием (справа). На обоих графиках зеленая звезда — это маленькая, быстрая модель (низкая стоимость, более низкое качество), а красная звезда — большая, медленная модель (высокая стоимость, более высокое качество). Точки на левом графике представляют различные компромиссы, предлагаемые каскадами путем изменения порога достоверности; синяя звезда на правом графике представляет компромисс, предлагаемый спекулятивным декодированием.
До сих пор применялись два подхода. Первый — каскады. Маленькая модель пытается ответить сама, а если задача оказывается слишком сложной, её подхватывает большая. Экономия есть, но качество сильно колеблется от запроса к запросу. Второй способ — спекулятивная декодировка. Здесь маленькая модель предсказывает сразу несколько слов, а большая быстро проверяет и подтверждает результат. Это ускоряет генерацию, но нагрузка на крупную модель остаётся высокой.
Блок-схема, иллюстрирующая спекулятивный каскад между малой и большой моделью. Как и при стандартном спекулятивном декодировании, процесс составления черновика включает авторегрессивную выборку из небольшой модели-черновика. Однако процесс проверки отличается: он учитывает комбинированное выходное распределение как малой, так и большой модели с помощью правила отсрочки, а не полагается исключительно на выходные данные большой модели.
В Speculative Cascades оба подхода объединены. Иногда маленькая модель полностью справляется с запросом сама. Иногда она используется как ускоритель, выдавая черновой вариант, который большая модель быстро проверяет. В итоге ресурсы расходуются эффективнее, скорость повышается, а итоговое качество остаётся на уровне крупных LLM.
Варианты спекулятивных каскадов (синий и оранжевый) достигают лучших компромиссов между качеством и задержкой по сравнению со стандартным спекулятивным декодированием (зеленая звезда) в задачах математического мышления и обобщения. Подробнее см. в статье.
Тесты на моделях Gemma и T5 показали впечатляющие результаты. Новый метод оказался быстрее спекулятивной декодировки, дешевле и надёжнее каскадов. Особенно сильный прирост наблюдается в задачах математического рассуждения: там Speculative Cascades не только ускорил работу, но и улучшил точность.
Ещё одно преимущество метода — гибкость. Разработчики могут сами выбирать баланс между скоростью и качеством: для массовых чат-ботов можно сделать ставку на сверхбыстрые ответы, а для аналитических систем — на проверенную и детализированную информацию.
Эксперты отмечают, что если технология будет внедрена в коммерческие продукты Google, включая семейство моделей Gemini, это может снизить стоимость работы ИИ-сервисов для бизнеса и пользователей по всему миру. По сути, речь идёт о создании нового «ускорителя» для всей отрасли, который позволит масштабировать использование LLM без критического роста затрат на GPU и энергопотребление.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Подробнее
Источник: habr.com