Компания DeepSeek (Ханчжоуская лаборатория фундаментальных технологий ИИ) получила патент на «Метод и система широкомасштабного сбора данных», опубликованный 1 апреля на сайте Государственного управления интеллектуальной собственности Китая.
Китайский патентКлючевые преимущества технологии:
Меньше нагрузки на сайты — алгоритм минимизирует трафик при сканировании, предотвращая перегрузку серверов.
Повышенная эффективность — система анализирует загруженный контент и предсказывает качество нескачанных ссылок, избегая дублирования и низкокачественных данных.
Стабильность обработки — отдельная очередь для метаданных гарантирует безопасность и точность обновлений базы.
Зачем это нужно?
Современные большие языковые модели (LLM) требуют огромных объемов высококачественных текстовых данных для обучения. Однако традиционные методы сбора информации из интернета сталкиваются с проблемами:
Неполный охват сложных сайтов,
Чрезмерные запросы, ведущие к сбоям,
Загрузка дубликатов или бесполезного контента.
Новая технология DeepSeek оптимизирует эти процессы, делая сбор данных быстрее, точнее и экономичнее для сетевых ресурсов.
Источник: IT之家
Бесплатный поиск, мониторинг и регистрация товарных знаков и других объектов интеллектуальной собственности.
Поиск по программам
Регистрация программы
Источник: habr.com