Каким получился обновленный DeepSeek — скорость и дешевизна вместо бенчмарков

Известный китайский ИИ DeepSeek получил обновление до версии V3.1 и уже доступен на сайте, в мобильных приложениях и для загрузки с Huggingface. Апдейт прошел тихо: до сих пор не опубликована карточка модели и официальные результаты бенчмарков. Но уже появилось достаточно много сторонних тестов, из которых понятно, что команда в этот раз сосредоточилась на оптимизации модели, а рекорды в бенчмарках отложила на потом.

Начнем с того, что больше не существует отдельных моделей: «быстрой» V3 и рассуждающей R1. V3.1 работает в обоих режимах, также прямо в нее «зашит» веб-поиск — все это снижает затраты на обслуживание модели. Пока это справедливо только для веб-версии и приложений — в API остаются две модели.

Неофициальные тесты показывают результат V3.1 без режима рассуждений в 71.6% в Aider Polyglot. Это даже лучше рассуждающей R1 (71.4%) и Claude Opus 4 (70,7%). При этом задача в среднем стоит 1 доллар против 4,8 доллара у R1 и 68 долларов у Opus 4. Вероятно, именно эффективность станет визитной карточкой новой модели: пользователи хвалят пониженный расход токенов и выросшую скорость ответа в режиме рассуждений.

Негативные отзывы также есть. Утверждается, что V3.1 стала больше подхалимничать, часто галлюцинирует, временами сбивается на китайский язык и хуже подходит для творческих задач.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”