DeepSeek научила свою модель экономить ресурсы и урезать цену API-запросов почти наполовину. Компания представила экспериментальную версию своей модели — DeepSeek V3.2-exp — с новым механизмом Sparse Attention, который позволяет обрабатывать длинные запросы гораздо эффективнее.
Суть подхода в том, что модель не читает всё контекстное окно целиком, как это делают стандартные LLM, а быстро находит наиболее важные части текста и обращается только к ним. Это экономит вычислительные ресурсы, снижает нагрузку на сервера и сокращает затраты на обработку больших запросов.
По результатам тестов, использование Sparse Attention позволяет уменьшить стоимость длинных API-запросов примерно на 50% без ощутимой потери качества. Судя по бенчмаркам, V3.2-exp демонстрирует показатели, сопоставимые с предыдущей версией V3.1, но работает заметно экономнее.
Компания выложила модель в открытый доступ на Hugging Face, чтобы разработчики могли протестировать новый режим работы своими силами.
Если технология приживётся, это может стать одним из первых массовых кейсов, когда оптимизация архитектуры LLM реально снижает стоимость использования API для конечных клиентов.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник: habr.com