Исследователи из Массачусетского технологического института представили новую платформу под названием SEAL, которая позволяет большим языковым моделям (LLM) генерировать собственные синтетические обучающие данные и совершенствоваться без посторонней помощи.
SEAL работает в два этапа. На первом этапе модель учится создавать эффективные «саморедактируемые» модели с помощью обучения с подкреплением. Эти саморедактируемые модели представляют собой инструкции на естественном языке, которые определяют новые обучающие данные и задают параметры оптимизации. На втором этапе система применяет эти инструкции и обновляет собственные веса с помощью машинного обучения.
Модель предлагает собственные исправления (SE), обновляет свои веса и оценивается по результатам выполнения задачи. Обучение с подкреплением (RL) помогает ей с каждым циклом генерировать более качественные правки
Ключевой частью SEAL является алгоритм ReST^EM, который действует как фильтр: он сохраняет и усиливает только те правки, которые действительно улучшают производительность. Алгоритм собирает различные правки, проверяет, какие из них работают, а затем обучает модель, используя только успешные варианты. SEAL также использует адаптеры низкого ранга (LoRA) — метод, который позволяет быстро и легко обновлять модель без переобучения всей модели.
Исследователи протестировали SEAL в двух сценариях. В первом они использовали Qwen2.5-7B для понимания текста. Модель генерировала логические выводы на основе текста, а затем обучалась на собственных результатах.
Синтетические выводы, полученные на основе текстового отрывка, служат обучающими данными для тонкой настройки LoRA
SEAL достиг точности в 47%, превзойдя метод сравнения с 33,5%. Качество сгенерированных им данных даже превзошло качество GPT-4.1 от OpenAI, несмотря на то, что базовая модель была намного меньше.
Обучение с подкреплением приводит к более подробному редактированию, что, в свою очередь, повышает производительность
Во втором тесте команда использовала Llama 3.2-1B для решения задачи на рассуждение. Здесь модель выбирала различные методы обработки данных и параметры обучения из предустановленного набора инструментов. С помощью SEAL модель достигла 72,5% успеха по сравнению с 20% без предварительной подготовки.
«Катастрофическая забывчивость» остаётся проблемой
Несмотря на впечатляющие результаты, исследователи обнаружили несколько ограничений. Основная проблема — «катастрофическое забывание»: когда модель выполняет новые задачи, она начинает хуже справляться с предыдущими. Обучение также требует больших ресурсов, поскольку каждая оценка саморедактирования занимает от 30 до 45 секунд.
Каждый раунд саморедактирования приводит к снижению точности воспроизведения ранее изученного материала Преодоление информационной стены
Команда Массачусетского технологического института рассматривает SEAL как шаг к преодолению так называемой «стены данных» — момента, когда все доступные обучающие данные, созданные человеком, исчерпаны. Кроме того, исследователи предупреждают о риске «краха модели», когда качество моделей снижается из-за слишком интенсивного обучения на низкокачественных данных, сгенерированных ИИ. SEAL может обеспечить непрерывное обучение и создание автономных систем ИИ, которые постоянно адаптируются к новым целям и информации.
Если модели смогут обучаться самостоятельно, усваивая новый материал — например, научные статьи — и генерируя собственные объяснения и выводы, они смогут продолжать совершенствоваться в редких или недостаточно освещённых темах. Такой цикл самостоятельного обучения может помочь языковым моделям выйти за пределы текущих возможностей.
Исходный код SEAL доступен на GitHub.
По этой ссылке вы можете получить 100 000 бесплатных токенов для выполнения первых задач на BotHub и приступить к работе с нейросетями прямо сейчас!
Источник
Источник: habr.com