Опубликован новый датасет T-ECD, который уже называют самым крупным и универсальным кросс-доменным набором для рекомендательных систем. Данные синтезированы на основе поведения 44 миллионов пользователей, насчитывают более 135 миллиардов взаимодействий и охватывают 30 миллионов товаров и 1,2 миллиона брендов.
Датасет охватывает сразу несколько ключевых доменов: Marketplace, Retail, Payments, Offers, Reviews и Receipts. Такая разноплановость делает его применимым практически для любых задач в RecSys — от классической коллаборативной фильтрации до сложных графовых и последовательных моделей, а также мультизадачных систем рекомендаций.
Важная особенность T-ECD — глубина временного охвата: от 1 года до 3,5 лет, что позволяет исследовать как краткосрочные пользовательские паттерны, так и долгосрочные поведенческие тренды. Причём использовать набор можно как целиком, так и по отдельным доменам, подстраивая его под конкретный проект.
Таким образом, T-ECD открывает широкие возможности для разработчиков и исследователей рекомендательных систем, объединяя масштаб, универсальность и гибкость. Он уже доступен для загрузки на Hugging Face.
Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.
Источник
Источник: habr.com