ИТМО провёл исследование open source в сферах машинного обучения и анализа данных

Специалисты центра «Сильный ИИ в промышленности» при ИТМО опубликовали результаты исследования особенностей и направления развития опенсорс-сообщества в сфере машинного обучения и анализа данных в России. В лидерах российского опенсорса оказались «Яндекс», Сбер и Т-Банк. 

Исследование состояло из двух частей, сообщают в ИТМО. В первой части авторы проанализировали использование опенсорс-решений в России и выяснили, что почти все компании ориентируются как на отечественный, так и на международный рынок. Пользователи же выбирают решения по их эффективности, не обращая внимания на страну происхождения разработчика.

Опросив экспертов рынка и проанализировав данные с GitHub и PyPI, исследователи составили топ-5 проектов в различных категориях: ML и алгоритмы, математика, инфраструктура, визуализация бизнеса, хранение данных и MLOps. Топ решений выглядит так:

ML и алгоритмы:

CatBoost

LightAutoML

PyTorch

Scikit-learn

TensorFlow

Математика:

NumPy

Optuna

SciPy

Theano

Statsmodels

Инфраструктура:

YTsaurus

Spark

Hadoop

Pandas

Caffe

Визуализация и BI:

Metabase

Superset

DataLens

Matplotlib

Plotly

Хранение данных:

MongoDB

Tarantool

PostgreSQL

ClickHouse

YDB

MLOps:

LangChain

Kubeflow

MLflow

WandB

GigaChain

Вторая часть исследования была посвящена определению лидеров в опенсорс-сообществе среди российских компаний-разработчиков. Авторы учли несколько критериев: количество опенсорс-проектов в тематических категориях, их использование в России, качество репозиториев, число контрибьюторов и их активность. По большинству показателей лидирует «Яндекс», за ним следуют Сбер и Т-Банк. В десятку также вошли Postgres Pro, VK, «Авито», Evrone, МТС, Selectel и ведущие университеты, включая сам ИТМО.

«”Яндекс” определяется как лидер благодаря нескольким факторам:

Большое количество активно развивающихся open-source проектов, охватывающих все тематические категории в области Data/ML. Проекты включают в себя открытые модели и данные. 

Лучшие показатели используемости этих проектов в России по сравнению с другими российскими компаниями. Это подтверждается как информацией от экспертов, так и открытыми данными (звёздами, форками, скачиваниями и т. д.). Особенно выделяется CatBoost, который активно используется как в России, так и во всём мире. 

Высокий уровень качества реализации репозиториев, большое количество контрибьюторов и их высокая активность. 

Участие в развитии сообщества через организацию мероприятий в сфере open-source и грантовых программ для поддержки независимых разработчиков», — пишут в ИТМО.

Исследователи также определили ключевые тенденции и мнения касательно глобального опенсорс-движения. Так, GitHub остаётся основным стандартом для размещения открытого кода, однако интерес к альтернативным платформам, таким как Gitee и GitVerse, сохраняется. Перспективы развития опенсорса включают сохранение ключевой роли человека в условиях роста влияния ИИ, демократизацию и автоматизацию ИИ-решений, а также интернационализацию сообщества. А вот тезис о том, что вклад в опенсорс помогает конкурентам, становится менее актуальным: всё больше компаний стремятся развивать отрасль в целом. 

Также эксперты, которых опросили авторы исследования, подчёркивают необходимость финансовых вложений в опенсорс-проекты, поскольку у крупных компаний есть ресурсы, но важно правильно их использовать для сохранения позиций на рынке.

Источник: habr.com

0 0 голоса
Рейтинг новости
10158
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии