Новый российский метод оценит эффективность ИИ при работе с длинными текстами

Российские специалисты в области искусственного интеллекта при поддержке британских коллег разработали инструмент, который поможет оценить эффективность нейросетей на базе больших языковых моделей, когда они работают с большими объёмами данных. Как на русском языке, так и английском. О перспективной разработке поведали в пресс-службе Института AIRI. Telegram-канал создателя Трешбокса про технологии «Данная разработка — важный шаг в оценке реальной эффективности языковых моделей. Наш бенчмарк не только позволяет сравнивать корректность работы моделей на разной длине контекста, но и служит индикатором их качества, что демонстрирует, в каких аспектах требуется улучшение. Это значительно поможет разработчикам новых моделей», — пояснил руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI Юрий Куратов, чьи слова приводит пресс-служба института.

Новый инструмент включает в себя 20 задач, необходимых для поиска и анализа разношёрстной информации в особо длинных текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами.

В ходе своей работы приложение оценивает две метрики: качество полученного ответа и зависимость точности этого ответа от длины контекста. Чтобы решить поставленную задачу, международной команде учёных потребовалось оптимизировать работу популярного набора данных BABI, нацеленного на оценку понимания базовой логики и арифметики, а также подготовить список текстов из художественной литературы, в которые были интегрированы задачи, изначально рассчитанные на понимание коротких текстов.

В ходе исследования свой инструмент учёные проверили на популярных языковых моделях с открытым исходным кодом, предлагая им текстовые отрывки разной длины. Выяснилось, что почти все модели используют лишь 10–20% контекста. Повышение же сложно ведёт к быстрому снижению качества работы. В результаты авторы исследования заявили, сейчас необходимо улучшать механизмы обработки контекстной информации.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

12193

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”