Известный китайский ИИ DeepSeek получил обновление до версии V3.1 и уже доступен на сайте, в мобильных приложениях и для загрузки с Huggingface. Апдейт прошел тихо: до сих пор не опубликована карточка модели и официальные результаты бенчмарков. Но уже появилось достаточно много сторонних тестов, из которых понятно, что команда в этот раз сосредоточилась на оптимизации модели, а рекорды в бенчмарках отложила на потом.
Начнем с того, что больше не существует отдельных моделей: «быстрой» V3 и рассуждающей R1. V3.1 работает в обоих режимах, также прямо в нее «зашит» веб-поиск — все это снижает затраты на обслуживание модели. Пока это справедливо только для веб-версии и приложений — в API остаются две модели.
Неофициальные тесты показывают результат V3.1 без режима рассуждений в 71.6% в Aider Polyglot. Это даже лучше рассуждающей R1 (71.4%) и Claude Opus 4 (70,7%). При этом задача в среднем стоит 1 доллар против 4,8 доллара у R1 и 68 долларов у Opus 4. Вероятно, именно эффективность станет визитной карточкой новой модели: пользователи хвалят пониженный расход токенов и выросшую скорость ответа в режиме рассуждений.
Негативные отзывы также есть. Утверждается, что V3.1 стала больше подхалимничать, часто галлюцинирует, временами сбивается на китайский язык и хуже подходит для творческих задач.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com