Привет! В четверг мы провели первый митап по данным в офисе M2. Поговорили о насущном — как строить аналитические платформы данных и как они помогают решать проблемы бизнеса. В программе было пять технических докладов о разных аспектах работы с данными: от решения конкретных прикладных технических задач до вопросов построения новой платформы данных с нуля и миграции туда пользователей со старой платформы.
Приносим записи докладов, чтобы можно было глянуть на досуге!
«Floppa the LakeHouse»Дмитрий Лахвич, Lead Data platform M2
Обсудили новую платформу данных, которую строит и на которую мигрирует М2. Мы столкнулись с проблемами масштабирования и поддержки данных — хранилище, которое использовалось раньше, перестало справляться. Мы приняли решение переехать на новую платформу. В докладе рассказали про технические подробности платформы и о том, как принимали решение об инструментах. Обсудили будущие доработки.
«Быстрый matching товаров на Wildberries»Павел Саликов, Data Scientist Wildberries
Цель мэтчинга — предложить пользователю идентичные товары другого продавца для экономии или быстрой доставки. В докладе обсудили мэтчинг товаров, решение архитектурной задачи, выбранные инструменты, оптимизацию и как решение помогло увеличить выручку и синхронизировать офлайн и онлайн метрики.
«Как обрабатывать, фильтровать и генерировать текстовые данные для моделей машинного обучения»Павел Северилов, NLP Team Lead ecom.tech (ex Samokat.tech)
Доклад был посвящен работе с текстовыми данными. Обсудили методы обработки текстовой информации, генерация новых текстов с помощью крупных языковых моделей и классических подходов, а также поиск похожих данных для улучшения ML-моделей. Подробно поговорили про практические задачи автоматизации клиентской поддержки и анализа обратной связи.
«Как мы съели ПУД соли выстраивая data management (и почти не подавились)»Богдан Глебов, Head of Data RealX
Богдан рассказал про платформу управления данными (ПУД) выстраиваемую для девелоперской компании STONE. Подробно обсудили выбор фреймворка и этапы реализации (да и зачем понадобилось пилить решение самим), первые результаты и оптимизации, которые предстоит сделать, и какие шишки они набили.
«Создание MLOps-платформы для десятка команд на основе Airflow»Даниил Понизов, MLOps Wildberries
Даниил рассказал, как строили собственную MLOps-платформу на основе Airflow. Поговорили, почему выбрали Airflow и как подошли к его интеграции для создания масштабируемой платформы. Рассказал, как управляют алертами с помощью внутреннего мессенджера и Telegram.
Спасибо всем, кто был офлайн и онлайн. Подписывайтесь на наш телеграм-канал, чтобы не пропустить анонсы следующих митапов.
Источник: habr.com