Исследователи Google представили новую парадигму машинного обучения под названием Nested Learning и считают, что она способна решить одну из самых жёстких проблем современных больших языковых моделей LLM. Основная трудность — неспособность учиться непрерывно и запоминать новое без стирания старых знаний.
Hope (слева) использует несколько уровней вложенного обучения, тогда как Transformers (справа) взаимодействуют только между слоями внимания и полносвязными сетями
Суть Nested Learning в том, чтобы рассматривать модель не как единый монолит, а как систему вложенных многослойных задач оптимизации. Каждая из них работает с собственной скоростью и внутренним потоком информации. Идея вдохновлена тем, как работает мозг. Разные части памяти обновляются с разной частотой, сохраняя стабильное ядро знаний, но при этом позволяя гибко реагировать на новое.
Для проверки концепции учёные Google разработали экспериментальную архитектуру под названием Hope. В её основе лежит Система Континуальной Памяти CMS. Банки памяти обновляются с разной скоростью: быстрые реагируют на свежий контекст, а медленные стабилизируют абстрактные знания.
Hope демонстрирует более низкую перплексию и более высокую точность по сравнению с другими архитектурами
В тестах Hope показала лучшие результаты по сравнению с классическими трансформерами и другими современными архитектурами. Она демонстрировала низкую перплексию — модель уверенно предсказывает следующие слова — и высокую точность в задачах Needle-in-Haystack, где нужно найти небольшую, но важную часть информации в очень длинном тексте.
Ключевой принцип подхода Google — дать ИИ возможность самостоятельно оптимизировать память. В Nested Learning не просто обучаются веса модели, но и сама структура обучения. Модель учится, как учиться. Это напоминает бесконечную петлю развития, где каждый уровень обучения влияет на другие, создавая глубокую и адаптивную систему.
Однако такой подход требует серьёзных изменений. Существующее железо и программные стеки сильно оптимизированы под классические трансформеры, и масштабирование Nested Learning на промышленные масштабы будет непростой задачей.
Тем не менее, если Nested Learning приживётся, он может стать фундаментом для моделей ИИ, способных учиться всю жизнь без потери старых знаний. Пожелаем Google удачи и будем продолжать следить за новостями!
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник
Источник: habr.com