Разработана система оценки «навыков» ИИ в работе с длинными текстами
Российские и британские учёные создали инструмент для оценки реальной производительности ИИ-моделей, работающих с большими объёмами данных на русском и английском языках. В Институте AIRI пояснили, что разработка поможет находить оптимальные настройки для языковых систем, что упростит их обучение и настройку. Руководитель исследовательской группы AIRI Юрий Куратов отметил, что новый бенчмарк позволяет оценить, как модели справляются с задачами на длинных текстах и в каких аспектах нуждаются в доработке.
Инструмент включает около двадцати различных задач, требующих от ИИ умения связывать разрозненные факты, делать логические выводы, работать с наборами данных и выполнять базовые расчёты. В разработке участвовали исследователи из МФТИ, Лондонского института математических наук и SberDevices. Для тестирования использовались отрывки из художественной литературы и популярный набор данных BABI, изначально предназначенный для проверки логики и понимания арифметики на коротких текстах.
Эксперименты показали, что популярные ИИ-модели используют лишь 10-20% доступного объёма контекста, а точность их работы падает с увеличением сложности задач и объёма текста. Учёные подчёркивают, что это говорит о необходимости улучшить методы обработки контекстной информации, что в будущем поможет создавать более эффективные языковые модели.
Источник: www.ferra.ru