Исследование по повышению производительности в системах RAG

Исследователи из Еврейского университета в Иерусалиме обнаружили, что количество документов, обработанных с помощью технологии расширенной генерации поиска (RAG), влияет на производительность языковой модели, даже если общая длина текста остается постоянной.

Исследовательская группа использовала набор данных проверки MuSiQue, содержащий 2417 вопросов с ответами. Каждый вопрос ссылается на 20 абзацев Википедии, при этом два-четыре абзаца содержат релевантную информацию об ответе, а остальные служат реалистичными отвлекающими факторами.

Дизайн исследования, показывающий подборки вопросов с подтверждающими документами (розовый) и отвлекающими документами (синий). Меньшее количество документов компенсируется расширением оставшихся для поддержания постоянной длины.

Чтобы изучить, как количество документов влияет на производительность, исследователи создали несколько разделов данных. Они постепенно сократили количество документов с 20 до 15, 10, восьми и, наконец, до двух-четырех документов, содержащих релевантную информацию. Чтобы поддерживать единообразное количество токенов и позиционирование информации, они расширили выбранные документы, используя текст из оригинальных статей Википедии.

Тестирование нескольких моделей с открытым исходным кодом, включая Llama-3.1, Qwen2 и Gemma 2, показало, что сокращение количества документов повысило производительность до 10 процентов в большинстве случаев. Qwen2 оказался исключением, возможно, более эффективно обрабатывая несколько коллекций документов. Хотя этим протестированным моделям всего несколько месяцев, более новые версии, такие как Llama-3.3, Qwen2.5 и Gemma 3, уже заменили их.

Сравнение производительности показывает, что Qwen2 сохраняет стабильную производительность, в то время как Llama-3.1 и Gemma-2 снижаются до 10% при увеличении количества документов

Языковые модели работали значительно лучше, когда им предоставлялись только вспомогательные документы, что означало более короткий контекст и устранение отвлекающего контента. Результаты показали, что похожие, но не связанные между собой документы, часто извлекаемые в системах RAG, могут запутать модель и снизить производительность.

Гистограмма, показывающая оценки F1 для Qwen-2 72B, Qwen-2 7B, Llama-3.1 72B, Llama-3.1 8B, Gamma-2 27B и Gamma-2 9B на разных наборах данных.

Исследование показывает, что обработка нескольких документов усложняет задачи в среде поиска. Исследователи подчеркивают, что поисковые системы должны сбалансировать релевантность и разнообразие, чтобы минимизировать конфликты. Будущие модели могут выиграть от механизмов, которые могут идентифицировать и отбрасывать противоречивую информацию, продолжая при этом использовать разнообразие документов.

Исследователи признают определенные ограничения исследования, включая отсутствие исследований вариаций подсказок и эффектов порядка данных. Они сделали свои наборы данных общедоступными, чтобы облегчить дальнейшие исследования в области обработки нескольких документов.

Поскольку контекстные окна продолжают расти, продолжается дискуссия о том, остаются ли системы RAG необходимыми. В то время как языковые модели становятся лучше в обработке больших объемов текста одновременно, архитектуры RAG показывают особые преимущества при использовании меньших моделей с открытым исходным кодом.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии