Исследователи из компании Anthropic разработали новый метод под названием «Максимизация внутренней согласованности» (Internal Coherence Maximization, ICM), который позволяет точно настроить языковые модели, используя только их собственные результаты. Этот подход может помочь (или даже заменить) человеческий контроль при выполнении сложных задач.
Традиционно большие языковые модели дорабатываются с помощью человеческого контроля, например, с помощью примеров ответов или обратной связи. Но по мере того как модели становятся больше, а их задачи — сложнее, человеческий контроль становится менее надёжным, утверждают исследователи из Anthropic, Schmidt Sciences, Independent, Constellation, Нью-Йоркского университета и Университета Джорджа Вашингтона в новом исследовании.
Их решением является алгоритм, называемый Internal Coherence Maximization, или ICM, который обучает модели без внешних меток, полагаясь исключительно на внутреннюю согласованность.
Модель оценивает себя сама — и учится на этом
В основе ICM лежит простая идея: языковая модель, такая как Claude или Llama, должна сама определять, какой ответ на вопрос является правильным, и делать это с помощью двух основных критериев.
Первый — это взаимная предсказуемость. Это означает, что модель проверяет, может ли она достоверно вывести правильный ответ на новый вопрос на основе ответов на аналогичные предыдущие вопросы. Если модель распознаёт закономерности в похожих случаях, она может применить их к новым ответам, создавая внутреннюю согласованность — набор ответов, которые сочетаются друг с другом и отражают общее понимание.
Второй критерий — логическая непротиворечивость. Здесь модель проверяет собственные ответы на наличие противоречий. Например, если модель считает два разных решения одной и той же математической задачи «правильными», несмотря на то, что результаты отличаются, это логический конфликт. ICM активно работает над тем, чтобы избегать подобных противоречий.
Комбинируя эти два принципа, модель, по сути, перепроверяет саму себя: она ищет набор ответов, которые являются взаимосвязанными и из которых каждый ответ может быть получен из других. Это позволяет языковой модели использовать имеющиеся знания для принятия более эффективных решений — без каких-либо внешних подсказок.
Процесс начинается с небольшого набора примеров со случайными метками. Затем модель итеративно оценивает новые ответы, ищет противоречия и при необходимости корректирует свои суждения.
В некоторых задачах превосходит человеческие возможности
В тестах по трём установленным критериям — TruthfulQA (правдивость), GSM8K (точность вычислений) и Alpaca (полезность) — ICM показал результаты не хуже, чем традиционное обучение с «золотыми» метками или под наблюдением человека.
В Alpaca, где используются такие субъективные критерии, как полезность и безвредность, ICM даже превзошёл обучение с использованием данных, размеченных человеком. По мнению исследователей, это говорит о том, что языковые модели уже усваивают эти понятия — им просто нужен правильный способ их активации.
В другом эксперименте проверялось, может ли модель определить пол автора по тексту. В то время как люди определяли пол правильно в 60% случаев, ICM достигала 80% точности. Модель не обучалась специально распознаванию пола, она просто опиралась на свои языковые знания.
Команда также использовала ICM для обучения модели вознаграждения — опять же, без участия человека. Затем эта модель вознаграждения была использована для обучения с подкреплением при создании чат-бота Claude 3.5 Haiku.
Чат-бот, обученный с помощью ICM, выиграл 60% сравнительных тестов с версией, обученной под контролем человека. Авторы исследования говорят, что это убедительное доказательство того, что ICM может выйти за рамки исследований и работать в производственных условиях.
Однако есть ограничения. ICM работает только с концепциями, которые модель уже знает. В тесте, где модель должна была научиться отдавать предпочтение стихам, в которых упоминается «солнце», ICM не справился — результат был не лучше, чем при случайном выборе. Метод также плохо справляется с длинными входными данными, поскольку многие примеры должны помещаться в контекстное окно модели.
Исследователи считают, что ICM может стать способом лучше адаптировать языковые модели к человеческим ценностям, не наследуя при этом человеческие недостатки, такие как предвзятость или непоследовательность, особенно в сложных задачах, где даже людям сложно давать надёжные оценки. Одним из соавторов статьи является исследователь в области безопасности Ян Лейке, который недавно покинул команду Superalignment OpenAI перед её распадом и публично раскритиковал направление развития компании.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник
Источник: habr.com