Свежий технодетектив на горизонте, и в центре внимания снова наш старый знакомый — китайская AI‑лаборатория DeepSeek. На прошлой неделе они выпустили обновлённую версию своей reasoning‑модели R1 (R1-0528), которая впечатляет в математике и кодинге. Но вот вопрос: что именно её так хорошо натренировало? Ответа от DeepSeek пока нет, зато появились подозрительные совпадения, указывающие на Google Gemini.
Улики на месте
Сэм Пейч, разработчик из Мельбурна, известный своими тестами «эмоционального интеллекта» для ИИ, опубликовал в X анализ, показывающий, что R1-0528 использует слова и выражения, очень похожие на те, что предпочитает Gemini 2.5 Pro от Google. По его мнению, DeepSeek мог переключиться с синтетических данных от OpenAI на синтетику от Gemini.
Это, конечно, не «дымящийся пистолет». Но к аналогичным выводам пришёл и другой исследователь — анонимный создатель бенчмарка свободы речи для ИИ SpeechMap. Он заметил, что «следы» (trace) новой модели DeepSeek — те самые промежуточные рассуждения, которые генерирует ИИ на пути к ответу, — «читаются как следы Gemini».
Дежа вю? История повторяется
Это не первая подобная история с DeepSeek: ещё в декабре разработчики заметили, что их модель V3 часто идентифицировала себя как ChatGPT, что намекало на возможное обучение на логах чатов OpenAI. Позже OpenAI заявила FT, что нашла свидетельства использования DeepSeek дистилляции — техники обучения модели на выходах более крупных и мощных конкурентов. Bloomberg же сообщал, что Microsoft (партнёр OpenAI) зафиксировала масштабную утечку данных через аккаунты разработчиков OpenAI в конце 2024 года — аккаунты, которые, по мнению OpenAI, связаны с DeepSeek.
Сама по себе дистилляция — практика нередкая, но условия использования OpenAI явно запрещают применять выходы их моделей для создания конкурентов.
Эксперты вроде Натана Ламберта, исследователя из некоммерческого AI2, считают версию с дистилляцией Gemini вполне правдоподобной. «Если бы я был DeepSeek, я бы точно создал кучу синтетических данных из лучшей API‑модели на рынке, — написал он в X. — Они коротки на GPU, но богаты деньгами. Для них это буквально эффективный способ получить больше вычислительных мощностей». Логика железная.
Оборона крепчает
Неудивительно, что гиганты усиливают защиту от слива своих наработок. В апреле OpenAI ввела верификацию по ID для доступа к продвинутым моделям через API (Китай, кстати, в список разрешённых стран не входит). Google недавно стал «суммировать» следы, генерируемые моделями в его AI Studio, что усложняет обучение конкурентов на этих данных. А Anthropic в мае объявила, что тоже начнёт суммировать следы Claude, прямо сославшись на защиту конкурентных преимуществ.
Говоря о доступе к разным моделям… Если вам нужен доступ к DeepSeek R1-0528, Claude 4, ChatGPT o3, Flux или Midjourney — загляните в агрегатор BotHub. Там собраны все топы в удобном интерфейсе! Рефералка на 100 000 токенов.
Google, как сообщается, пока хранит молчание по этому поводу. Будем следить за развитием детектива.
Источник: habr.com