Разработка позволяет сократить расходы на вычислительные мощности при использовании искусственного интеллекта практически без потерь в качестве. Планируется, что перспективе это приведет к более широкому коммерческому использованию языковых моделей, которое сейчас ограничено высокой ресурсозатратностью. Кроме того, снижение потребления энергии в области вычислений, особенно в больших центрах обработки данных, будет иметь положительный эффект для экологии.
Насколько велико падение качества и в решении каких задач этим можно пренебречь? На этот вопрос ответил Даниил Гаврилов, руководитель лаборатории T-Bank AI Research:
Это (применение новой архитектуры – примечание редакции) важно в задачах, где скорость ответа и энергоэффективность превыше идеального качества. Например, в свежей версии Android на устройствах используется Gemini Nano для того, чтобы решать задачи людей без необходимости отправки запросов сервер. Это в том числе ведет к большей приватности использования LLM. Во-вторых, эффективные архитектуры так же могут использоваться в гибридных моделях, ускоряя их использование уже без потерь в качестве.
Результаты исследования были признаны мировым научным сообществом и представлены на 63-й Международной ежегодной конференции по компьютерной лингвистике (ACL), которая прошла в Бангкоке, Таиланд, с 11 по 16 августа 2024 года. Это главная научная конференция в области обработки естественного языка в мире. Научную работу цитировали одни из самых известных исследователей эффективности искусственного интеллекта в мире, представляющие Принстонский университет и Университет Карнеги — Меллона. Почти все языковые модели в мире используют именно их наработки.
Даниил Гаврилов, руководитель лаборатории T-Bank AI Research
Откроет ли новая архитектура возможность применения небольшим компаниям? Даниил Гаврилов считает, что да, но не напрямую:
Прямо сейчас даже обучение эффективных LLM с нуля требует больших затрат ресурсов. Модели становятся доступнее со временем, и можно предположить, что обучать LLM в том размере, котором они обучаются сейчас, станет «легче» для более мелких компаний в будущем. Но в первую очередь, эффективные архитектуры позволят более мелким компаниям именно использовать уже обученные эффективные модели, потому что их применение тоже требует много вычислений.
Самые распространенные языковые модели основаны на архитектуре «Трансформер», представленной в 2017 году исследователями из Google. Они хорошо зарекомендовали себя при решении практических задач, но для них требуется очень большое количество ресурсов, которые растут квадратично с удлинением текста. Для широкого практического применения необходимы менее ресурсозатратные архитектуры. Наиболее успешные конкуренты трансформеров — последние SSM-модели (State Space Model, модели пространства состояний) Mamba, но они уступают по способности контекстного обучения, которое позволяет ИИ-агентам адаптироваться к новым задачам без необходимости повторного обучения.
В модели Based, представленной учеными Стэнфорда в декабре 2023 года, которая значительно улучшила способности контекстного обучения, специалисты T-Bank AI Research обнаружили неэффективное использование ресурсов из-за неоптимальной структуры нейросети. Проведя анализ архитектуры Base, ученые из T-Bank AI Research оптимизировали механизм извлечения информации из текста, добавив новые обучаемые параметры, которые отвечают за оптимальный поиск взаимосвязей между частями текста. Это позволяет улучшить процесс его обработки и получать более точные ответы. Ученые также упростили алгоритм выделения текстовой информации, что привело к увеличению производительности, повышению качества работы с длинными текстами и улучшению контекстного обучения. В среднем понимание взаимосвязей в тексте в новой архитектуре стало лучше на 10%.
ReBased способна снизить издержки на использование искусственного интеллекта для специализированных задач, которые имеют конкретную область применения и требуют учета ее особенностей. Например, в медицине такой задачей может считаться классификация текстов на основе симптомов и диагнозов. Новая архитектура, предложенная учеными, позволяет приблизить качество линейных моделей к трансформерам. Модели, в основе которых лежит ReBased, могут генерировать тексты с более низкими требованиями к ресурсам практически без потери качества.
Ученые проводили эксперименты на датасете MQAR (Multi-Query Associative Recall), который позволяет определять способность модели к контекстуальному обучению, а именно к ассоциативному запоминанию (запоминанию не связанных пар объектов), например: лицо человека — его имя.
Результаты по набору данных MQAR, разработанному для измерения возможностей контекстного обучения архитектуры Arora и др. (2024). ReBased превосходит все эффективные модели в возможностях контекстного обучения
Ярослав Аксенов, исследователь обработки естественного языка в T-bank AI Research:
Примечательно, что параллельно с выходом нашей статьи группа исследователей из Стэнфорда выпустила исследование на эту же тему, но с другим подходом к решению. Сейчас это одна из наиболее интересных областей исследований в NLP по всему миру: трансформеры слишком медленные, но линейные модели уступают им по качеству. И мы, и ученые из Стэнфорда занимаемся поиском оптимальных архитектур. Мы ценим их вклад в развитие технологий и рады возможности участвовать в научном диалоге такого уровня.
В перспективе линейные модели все чаще будут использоваться в комбинации с трансформерами в качестве составной части гибридных архитектур. Такие архитектуры сочетают в себе и скорость, и высокое качество выполнения задач.
Подробное описание модели и результаты экспериментов доступны в статье Linear Transformers with Learnable Kernel Functions are Better In-Context Models. Исходный код и дополнительные материалы можно найти на GitHub.
Источник: www.it-world.ru