Российские специалисты в области искусственного интеллекта при поддержке британских коллег разработали инструмент, который поможет оценить эффективность нейросетей на базе больших языковых моделей, когда они работают с большими объёмами данных. Как на русском языке, так и английском. О перспективной разработке поведали в пресс-службе Института AIRI. Telegram-канал создателя Трешбокса про технологии «Данная разработка — важный шаг в оценке реальной эффективности языковых моделей. Наш бенчмарк не только позволяет сравнивать корректность работы моделей на разной длине контекста, но и служит индикатором их качества, что демонстрирует, в каких аспектах требуется улучшение. Это значительно поможет разработчикам новых моделей», — пояснил руководитель группы «Модели с памятью» лаборатории «Когнитивные системы ИИ» Института AIRI Юрий Куратов, чьи слова приводит пресс-служба института.
Новый инструмент включает в себя 20 задач, необходимых для поиска и анализа разношёрстной информации в особо длинных текстах. Среди них — связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами.
В ходе своей работы приложение оценивает две метрики: качество полученного ответа и зависимость точности этого ответа от длины контекста. Чтобы решить поставленную задачу, международной команде учёных потребовалось оптимизировать работу популярного набора данных BABI, нацеленного на оценку понимания базовой логики и арифметики, а также подготовить список текстов из художественной литературы, в которые были интегрированы задачи, изначально рассчитанные на понимание коротких текстов.
В ходе исследования свой инструмент учёные проверили на популярных языковых моделях с открытым исходным кодом, предлагая им текстовые отрывки разной длины. Выяснилось, что почти все модели используют лишь 10–20% контекста. Повышение же сложно ведёт к быстрому снижению качества работы. В результаты авторы исследования заявили, сейчас необходимо улучшать механизмы обработки контекстной информации.
Источник: trashbox.ru