«Непостижимые волшебники»: как китайский Deepseek обгоняет Кремниевую долину в сфере AI

Китайский стартап в области искусственного интеллекта Deepseek привлекает внимание в Кремниевой долине, сравнявшись или превзойдя лидеров отрасли, таких как OpenAI o1, GPT-4o и Claude 3.5, — и все это при гораздо меньших затратах. Кто стоит за командой академических исследователей, которые перехитрили самые громкие имена в сфере технологий?

Deepseek опережает ускорители из Кремниевой долины: последняя модель компании, Deepseek-V3 , работает лучше, чем ведущие коммерческие системы AI в тестах производительности, согласно независимым оценкам. Всего несколько месяцев назад их модель R1-Lite почти сравнялась с o1-preview от OpenAI, а финальная версия R1 теперь работает на том же уровне.

Deepseek, опираzcm на западные разработки с открытым исходным кодом, также предлагает свежие идеи. Быстрый прогресс компании привлек внимание технологических лидеров, включая генерального директора Meta* Марка Цукерберга , который, как сообщается, обеспокоен их эффективностью и скоростью.

История начинается с Лян Вэньфэна , родившегося в 1985 году в семье учителя начальной школы в Чжаньцзяне. После окончания Чжэцзянского университета в 2006 году он изучал машинное обучение в финансах во время обучения в магистратуре.

В отличие от таких гендиректоров технологических компаний, как Сэм Альтман или Илон Маск, Вэньфэн остается в стороне от внимания. Его профиль IEEE показывает, что он по-прежнему глубоко вовлечен в исследования, опубликовав в 2024 году статьи об AI в производстве и новых материалах.

К 2015 году Вэньфэн и двое его одноклассников основали квантовый хедж-фонд High-Flyer , который за шесть лет вырос до управления примерно 13 миллиардами евро, став одним из «четырех королей количественного инвестирования» Китая. Этот успех привел к созданию High-Flyer AI в 2019 году.

В 2021 году то, что казалось дорогим хобби, превратилось в нечто более значимое. Вэньфэн начал покупать тысячи графических процессоров Nvidia для того, что он называл побочным проектом AI.

Это хобби оказалось пророческим — High-Flyer приобрела более 10 000 графических процессоров Nvidia A100 до того, как в США вступили в силу экспортные ограничения, и использовала их для усовершенствования своего суперкомпьютера Fire-Flyer, ориентированного на глубокое обучение, заложив основу для его конечного успеха.

Когда Deepseek официально запустился в мае 2023 года, он выглядел не так, как типичные стартапы. Офисы в Пекине и Ханчжоу больше похожи на университетский кампус для исследователей, чем на технологическую компанию.

Deepseek быстро выпустила свой первый продукт, Deepseek Coder , за которым последовал более широкий Deepseek LLM , а в течение года — значительно улучшенные Coder-V2 и Deepseek-V2 .

Над разработкой моделей работают от 100 до 140 человек из 200–300 сотрудников. Deepseek выделяется своей фокусировкой на фундаментальных исследованиях, а не на коммерческих приложениях. Компания полностью финансируется High-Flyer и обязуется предоставлять открытый исходный код своей работы — даже в своих стремлениях к искусственному интеллекту общего назначения (AGI), по словам исследователя Deepseek Дели Чена .

По словам Вэньфэна , они нанимают в основном лучших выпускников университетов и аспирантов поздних стадий, которые публиковались в ведущих журналах, но имеют мало опыта в отрасли. Хотя команда ставит исследования выше прибыли, Deepseek не уступает ByteDance в предложении самых высоких зарплат инженерам AI в Китае, сообщает Financial Times .

Подход Deepseek отличается от большинства западных компаний, занимающихся AI. Их профиль X просто гласит: «Раскройте тайну AI с любопытством. Ответьте на главный вопрос с долгосрочным подходом». Вы не найдете обычных корпоративных обещаний о безопасности или конкуренции.

Вэньфэн откровенно говорит о том, что ставит исследования на первое место: «Если нам нужно найти коммерческую причину, мы, вероятно, не сможем этого сделать, потому что это невыгодно. С коммерческой точки зрения фундаментальные исследования имеют очень низкий коэффициент окупаемости инвестиций, и когда первые инвесторы OpenAI вкладывали свои деньги, они не думали о прибыли. Они делали это, потому что хотели этого».

Сам Вэньфэн сосредоточен на более масштабной картине: изменении технологической культуры Китая. Он надеется, что Deepseek вдохновит больше «хардкорных инноваций» во всей экономике Китая. Джек Кларк, бывший руководитель политики OpenAI и соучредитель Anthropic, сказал, что Deepseek наняла группу «непостижимых волшебников».

Старший научный сотрудник Nvidia Джим Фан видит в их ограниченных ресурсах преимущество: «Ограниченность ресурсов — прекрасная вещь. Инстинкт выживания в условиях жесткой конкуренции в сфере искусственного интеллекта — главный стимул для прорывов».

«Превосходные модели OSS оказывают огромное давление на коммерческие, передовые компании LLM, заставляя их действовать быстрее», — пишет Фань.

Главный научный сотрудник Meta* по искусственному интеллекту Ян Лекун назвал их модель V3 «превосходной» и похвалил  их приверженность открытому исходному коду, заявив, что они следуют истинному духу открытых исследований, совершенствуя существующие технологии и делясь своим процессом.

Несмотря на впечатляющие показатели и похвалу отрасли, несколько вопросов омрачают рост Deepseek. Как и все китайские компании AI, модели Deepseek должны соответствовать государственной цензуре , а их отношения с правительством остаются неясными.

Также существует неопределенность относительно их методов обучения — их модели иногда идентифицируют себя как ChatGPT , что позволяет предположить, что они могут обучаться на результатах западного AI.

Но хотя большинство западных компаний, занимающихся разработкой искусственного интеллекта, запрещают такую ​​практику, они сами сталкиваются с исками о нарушении авторских прав в отношении обучающих данных , поскольку они использовали данные, защищенные авторским правом, для разработки систем, которые могут составить конкуренцию тем, кто изначально создал эти данные.

Это поднимает вопросы о том, кто устанавливает правила разработки и обучения AI, и проливает свет на вопиющие двойные стандарты отрасли. В некотором смысле, кажется поэтическим правосудием, что Deepseek проигнорирует эти правила, чтобы наверстать упущенное.

Meta и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
486
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии