Команда Qwen от Alibaba только что добавила в семейство Qwen2.5 два новых элемента: Qwen2.5-7B-Instruct-1M и Qwen2.5-14B-Instruct-1M. Эти модели с открытым исходным кодом способны обрабатывать контекстные окна длиной до миллиона токенов, что делает их уникальными среди общедоступных моделей с подобными возможностями.
Модели используют редкое внимание, фокусируясь только на наиболее важных частях контекста. Такой подход позволяет обрабатывать входные данные объёмом в миллион токенов в три-семь раз быстрее, чем традиционные методы, а выходные данные могут содержать до 8000 токенов. Однако для этого моделям необходимо выявлять ключевые отрывки в контекстных документах — задача, с которой часто не справляются современные языковые модели.
В процессе тестирования обе модели — 14B и Qwen2.5-Turbo — продемонстрировали безупречные результаты в обнаружении скрытых чисел в объёмных текстовых массивах. Модель 7B также показала хорошие результаты, лишь с незначительными ошибками. Однако эти тесты в основном тестируют поиск информации — аналогично дорогостоящему нажатию Ctrl + F — а не более глубокое понимание контента.
Результаты тестирования показывают точность различных моделей Qwen2.5 при извлечении информации из длинных документов. Версия с обучением на 256 000 токенов обеспечивает такую же точность, как и модели с более длинными контекстными окнами.
Преимущества больших контекстных окон перед системами RAG неочевидны. Длинные контекстные окна проще в использовании и более гибкие, но архитектуры RAG, которые извлекают информацию из внешних баз данных во время логического вывода, часто работают более точно и эффективно с гораздо меньшими контекстными окнами, содержащими около 128 000 токенов.
В более сложных тестах, таких как RULER, LV-Eval и LongbenchChat, модели с миллионом токенов превзошли своих аналогов с 128 000 токенов, особенно в последовательностях длиной более 64 000 токенов. Модель 14B даже набрала более 90 баллов в RULER — впервые для серии Qwen — стабильно опережая GPT-4o mini в нескольких наборах данных.
Модели Qwen2.5 показывают хорошую производительность в тесте RULER, особенно на длинных последовательностях.
Для более коротких текстов модели с миллионом токенов показали такую же производительность, как и модели с 128 тысячами токенов, без каких-либо компромиссов при работе с кратким контентом.
Пользователи могут попробовать эту и другие модели Alibaba с помощью Qwen Chat, интерфейса Alibaba, похожего на ChatGPT, или с помощью демонстрации на Hugging Face. Наряду с моделями с открытым исходным кодом от китайской компании Deepseek, Qwen бросает вызов признанным американским провайдерам, предлагая аналогичные возможности по более низкой цене.
Источник
Источник: habr.com