Предполагается, что большие языковые модели могут обрабатывать миллионы токенов (фрагментов слов и символов, из которых состоят входные данные) одновременно. Но чем длиннее контекст, тем хуже они справляются с задачей.
Таков вывод нового исследования, проведённого Chroma Research. Компания Chroma, создающая векторную базу данных для ИИ-приложений, на самом деле выигрывает, когда моделям требуется помощь в получении информации из внешних источников. Тем не менее масштаб и методология этого исследования заслуживают внимания: исследователи протестировали 18 ведущих ИИ-моделей, включая GPT, Claude, Gemini и Qwen, в четырёх типах задач. Среди них были семантический поиск, задачи на повторение и ответы на вопросы в объёмных документах.
Вместо подбора слов
Исследование основано на знакомом тесте «иголка в стоге сена», когда модель должна выбрать конкретное предложение, спрятанное в длинном блоке нерелевантного текста. Команда Chroma раскритиковала этот тест за измерение только буквального совпадения строк, поэтому они изменили его, чтобы он требовал настоящего семантического понимания.
В частности, они вышли за рамки простого распознавания ключевых слов двумя основными способами. Во-первых, вместо того чтобы задавать вопрос, в котором используются те же слова, что и в скрытом предложении, они задавали вопросы, связанные с ним только семантически. Например, в задании, вдохновлённом тестом NoLiMa, может быть задан вопрос: «Кто был в Хельсинки?», если в тексте упоминается только то, что Юки живёт рядом с музеем Киасма. Чтобы дать ответ на этот вопрос, модель должна использовать свои знания об окружающем мире, а не просто искать совпадения ключевых слов.
Для моделей это оказалось гораздо более сложной задачей. При ответе на эти семантические вопросы производительность резко падала, и чем длиннее был контекст, тем хуже обстояли дела.
Во-вторых, в исследовании рассматривались отвлекающие факторы: утверждения, схожие по содержанию, но неверные. Добавление даже одного отвлекающего фактора заметно снижало процент правильных ответов, причём эффект зависел от самого отвлекающего фактора. При наличии четырёх отвлекающих факторов эффект был ещё сильнее. Модели Claude часто отказывались отвечать, в то время как модели GPT, как правило, давали неверные, но правдоподобные ответы.
Структура имеет значение (но не такое, как ожидается)
Структура также сыграла неожиданную роль. На самом деле, модели лучше справлялись с текстами, в которых предложения были перемешаны случайным образом, чем с текстами, организованными в логическом порядке. Причины этого неясны, но исследование показало, что контекстная структура, а не только содержание, является основным фактором, влияющим на эффективность модели.
Исследователи также протестировали более практичные сценарии с использованием LongMemEval — бенчмарка с историей чатов длиной более 100 000 токенов. В этом отдельном тесте наблюдалось аналогичное снижение производительности: производительность падала, когда моделям приходилось обрабатывать всю историю чатов, в отличие от ситуации, когда им предоставлялись только необходимые разделы.
Рекомендация исследования: используйте целенаправленную «контекстную инженерию» — отбирайте и систематизируйте наиболее релевантную информацию в запросе, чтобы большие языковые модели оставались надёжными в реальных сценариях. Полные результаты доступны на сайте Chroma Research, а набор инструментов для воспроизведения результатов доступен для скачивания на GitHub.
Другие исследования обнаруживают аналогичные проблемы
Данные, полученные в ходе исследования Chroma, подтверждают результаты, полученные другими научными группами. В мае 2025 года Николай Савинов из Google DeepMind объяснил, что, когда модель получает большое количество токенов, ей приходится распределять внимание между всеми входными данными. Подводя итог, он сказал, что необходимо научиться фильтровать лишние данные и сохранять смысловой контекст. Это позволит модели работать более продуктивно, если она будет сконцентрирована на ключевых аспектах.
Исследование Мюнхенского университета Людвига-Максимилиана и Adobe Research показало примерно то же самое. В ходе теста NOLIMA, где не требуется дословное совпадение ключевых слов, даже модели, предназначенные для анализа текста, показали заметное снижение эффективности при увеличении объёма контекста.
Microsoft и Salesforce сообщили о схожей нестабильности при более длительных беседах. В многоэтапных диалогах, где пользователи шаг за шагом излагают свои требования, точность снизилась с 90 до 51 процента.
Один из самых ярких примеров — Meta’s Llama 4 Maverick. Хотя Maverick технически может обрабатывать до десяти миллионов токенов, он с трудом справляется с этой задачей. В тесте, разработанном для отражения реальных сценариев, Maverick достиг точности всего в 28,1% при использовании 128 000 токенов — это намного ниже его технического максимума и значительно ниже среднего показателя для современных моделей. В этих тестах OpenAI’s o3 и Gemini 2.5 на данный момент показывают наилучшие результаты.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Перевод, источник новости здесь.
Источник: habr.com