9 февраля на arXiv была опубликована новая научная работа «LM2: Large Memory Models», в которой исследователи описали обновление классической архитектуры LLM на базе трансформеров. LM2 превосходит как модель RMT с дополненной памятью на 37.1%, так и базовую модель Llama-3.2 на 86,3% в среднем по задачам.
В чем суть?
Исследователи из Convergence Labs представили Large Memory Model (LM2) – новую архитектуру языковых моделей, которая преодолевает ограничения традиционных трансформеров в обработке длинного контекста.
LM2 дополняет стандартный механизм внимания отдельным модулем памяти, который взаимодействует с входными данными, отбирает важную информацию и обновляется по мере работы модели.
В чем новизна?
Ключевое отличие LM2 – дополнительный поток памяти, который дополняет стандартный поток внимания в трансформерах. Этот механизм включает:
Кросс-аттеншен между модулем памяти и входными данными.
Гейты управления (запись, забывание и извлечение данных), позволяющие динамически обновлять хранимую информацию.
Разделение процессов обработки и хранения информации, что делает модель устойчивой к длинным контекстам.
Модель тестировалась на двух ключевых наборах данных:
BABILong – сложный бенчмарк для многоступенчатых рассуждений. LM2 показала прирост точности на 37,1% по сравнению с предыдущими архитектурами с улучшенной памятью.
MMLU – тест на общие знания. LM2 улучшила результаты на 5%, демонстрируя, что модуль памяти не мешает базовой работоспособности модели на универсальных задачах.
Заключение
LM2 – очередной шаг вперед в развитии ИИ. Сейчас большое количество инвестиций идёт как раз в новые архитектуры — многие ожидают, что следующие грандиозные прорывы будут следствие не просто масштабирования (увеличения кол-ва параметров), а именно смены самой архитектурной парадигмы в LLM (что мы и видим на последних стрельнувших моделях).
Дополнительно к этому, один из главных трендов этого года — обучение ИИ без участия человека (на синтетических данных). Интересно, какие ещё открытия ждут нас в этом году на пересечении этих подходов — архитектурных изменений с одной стороны, и ускорение за счет исключения ручного труда — с другой.
—-
P.S. Все громкие новости про ИИ, которые попадают в заголовки медиа обычно вырастают из таких «тихих» революционных исследований. Чтобы узнавать о них раньше всех надо регулярно мониторить HuggingFace Daily papers/arXiv recents/GitHub Trending/прочие исследовательские площадки.
Я делаю это на ежедневной основе, и если нахожу такие алмазы — пишу про них у себя в Телеграм канале, вместе с глубокой аналитикой по тому, как это всё влияет на бизнес.
Источник: habr.com