Известно, что современные языковые модели начинают терять эффективность на длинных контекстах — даже если текст помещается в контекстное окно, то точность все равно может падать. Авторы многоязычного бенчмарка OneRuler решили выяснить, зависит ли эффективность от языка общения, и пришли к неожиданным выводам: если на коротких (8К) контекстах разница минимальна, то для длинных контекстов самыми эффективными оказались польский, русский и украинский языки. Далее идут французский и итальянский, английский только шестой, а китайский среди аутсайдеров: 4-й с конца.
OneRuler — это расширение бенчмарка RULER на 26 языков и 7 задач, где проверяют не только поиск «иголки в стоге сена» (поиск ответа на небольшой вопрос в огромном тексте), но и, например, умение агрегировать по всему документу (две версии CWE на частотах слов). В эксперименте участвовали следующие модели: закрытые Gemini 1.5 Flash и OpenAI o3-mini-high; открытые Qwen 2.5 (7B и 72B), Llama 3.1 (8B), Llama 3.3 (70B) и DeepSeek-R1.
Очевидный тренд тренд — разрыв между «богатыми» и «бедными» (по представленности в корпусе данных для обучения) языками растет с увеличением контекста: с ~11% на 8k до ~34% на 128k. В верхней части рейтинга остаются в основном славянские, романские и германские языки, а вот английский и китайский на длинных контекстах не попали в топ-5. При этом особенно провальными стали результаты в агрегации текста.
У авторов нет четкого объяснения результатов, однако они приводят несколько гипотез. Провал китайского явно связан с тем, что при одинаковом количестве токенов в модель помещается разное количество информации в зависимости от языка. Также ИИ начинали нестабильно отвечать в ситуациях, когда промпт пишется на одном языке, а анализируемый текст на другом — это частый случай для работы в с документами. Также авторы предполагают, что в обучающих данных может быть «перекос» в представленности длинных текстов на разных языках. Наконец, на английском и китайском модели начинали часто ошибаться в случае инструкции «если ответа нет, напиши none».
В целом бенчмарк показывает нестабильность современных ИИ внутри заявленных характеристик. Даже если модель поддерживает все популярные языки, то качество ответов в некоторых случаях может меняться, причем самым неожиданным образом.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com