Российские учёные создали систему оценки ИИ в работе с длинными текстами

Разработана система оценки «навыков» ИИ в работе с длинными текстами

Российские и британские учёные создали инструмент для оценки реальной производительности ИИ-моделей, работающих с большими объёмами данных на русском и английском языках. В Институте AIRI пояснили, что разработка поможет находить оптимальные настройки для языковых систем, что упростит их обучение и настройку. Руководитель исследовательской группы AIRI Юрий Куратов отметил, что новый бенчмарк позволяет оценить, как модели справляются с задачами на длинных текстах и в каких аспектах нуждаются в доработке.

Инструмент включает около двадцати различных задач, требующих от ИИ умения связывать разрозненные факты, делать логические выводы, работать с наборами данных и выполнять базовые расчёты. В разработке участвовали исследователи из МФТИ, Лондонского института математических наук и SberDevices. Для тестирования использовались отрывки из художественной литературы и популярный набор данных BABI, изначально предназначенный для проверки логики и понимания арифметики на коротких текстах.

Эксперименты показали, что популярные ИИ-модели используют лишь 10-20% доступного объёма контекста, а точность их работы падает с увеличением сложности задач и объёма текста. Учёные подчёркивают, что это говорит о необходимости улучшить методы обработки контекстной информации, что в будущем поможет создавать более эффективные языковые модели.

Источник: www.ferra.ru

0 0 голоса

Рейтинг новости

11815

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”