Каким получился обновленный DeepSeek — скорость и дешевизна вместо бенчмарков

Известный китайский ИИ DeepSeek получил обновление до версии V3.1 и уже доступен на сайте, в мобильных приложениях и для загрузки с Huggingface. Апдейт прошел тихо: до сих пор не опубликована карточка модели и официальные результаты бенчмарков. Но уже появилось достаточно много сторонних тестов, из которых понятно, что команда в этот раз сосредоточилась на оптимизации модели, а рекорды в бенчмарках отложила на потом.

Начнем с того, что больше не существует отдельных моделей: «быстрой» V3 и рассуждающей R1. V3.1 работает в обоих режимах, также прямо в нее «зашит» веб-поиск — все это снижает затраты на обслуживание модели. Пока это справедливо только для веб-версии и приложений — в API остаются две модели.

Неофициальные тесты показывают результат V3.1 без режима рассуждений в 71.6% в Aider Polyglot. Это даже лучше рассуждающей R1 (71.4%) и Claude Opus 4 (70,7%). При этом задача в среднем стоит 1 доллар против 4,8 доллара у R1 и 68 долларов у Opus 4. Вероятно, именно эффективность станет визитной карточкой новой модели: пользователи хвалят пониженный расход токенов и выросшую скорость ответа в режиме рассуждений.

Негативные отзывы также есть. Утверждается, что V3.1 стала больше подхалимничать, часто галлюцинирует, временами сбивается на китайский язык и хуже подходит для творческих задач.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии