По подсчетам Google, один текстовый промпт к Gemini сейчас расходует 0,24 ватт-час электричества и 0,26 мл воды, а также выделяет 0,03 г CO₂e — это меньше, чем тратится на 9 секунд просмотра телевизора. Всего за год расход электроэнергии сократился в 33 раза, а «углеродный след» — в 44 раза (во втором случае добавку обеспечивает закупка больших объемов «зеленой» энергии).
Компания ведет свои подсчеты по «полной» методике, учитывая не только работу чипов во время ответа, но и работу обслуживающих их серверов, и простой мощностей, которые зарезервированы для всплесков трафика, потери дата-центров и расход воды на охлаждение. Однако текущая методика не учитывает расходы на тренировку модели — в Google пообещали включить эти расчеты в свои будущие исследования.
Сокращение потребления электричества в Google связывают с целым комплексом предпринятых мер. Сами модели стали более эффективными за счет использования гибридного рассуждения и архитектуры «смесь экспертов» (Mixture of Experts), когда для ответа используют только те части модели, которые разбираются в нужной области. Важную роль играют квантизация и дистилляция — модели Flash и Lite тратят меньше энергии, но справляются с большинством запросов не хуже Pro.
За год в компании научились лучше группировать и распределять запросы, а также использовать KV-кэш. Это позволяет обрабатывать больше промптов на прежних вычислительных мощностях.
В Google утверждают, что новые TPU Ironwood в 30 раз эффективнее TPU первого поколения. А дата-центры на их базе строятся с активным использованием энергосберегающих технологий. Далее в компании планируют доработать методику подсчета расходов энергии и предложить ее в качестве индустриального стандарта.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com