OpenAI расширяет свою программу настройки для o4-mini, представляя Reinforcement Fine-Tuning (RFT) для организаций. Метод разработан, чтобы помочь адаптировать модели, такие как o4-mini, к высокоспецифичным задачам с помощью программируемой системы оценок.
RFT разработан, чтобы помочь организациям настроить языковые модели для узкоспециализированных областей, таких как право, финансы или безопасность. Вместо того, чтобы полагаться на фиксированные ответы, RFT использует программируемый «оценщик», который оценивает каждый ответ модели на основе пользовательских критериев, таких как стиль, точность или безопасность. Несколько оценщиков можно объединить для отражения более мелких целей.
При такой настройке модель учится расставлять приоритеты в ответах, которые получают более высокие баллы от оценщика. Подход основан на обучении с подкреплением, той же базовой технике, которая лежит в основе моделей рассуждений OpenAI, таких как o3. Запрос на чтение доступен для проверенных организаций с сегодняшнего дня.
Процесс RFT организован в пять основных этапов: во-первых, настраивается оценщик для определения критериев сильных ответов. Затем загружаются данные обучения и проверки, и начинается работа по тонкой настройке. Во время обучения модель выдает несколько потенциальных ответов на каждую подсказку, каждый из которых оценивается оценщиком. Алгоритм градиента политики обновляет модель, отдавая предпочтение ответам с высокими баллами.
OpenAI демонстрирует RFT на примере безопасности: модель обучается отвечать на вопросы о внутренней политике безопасности компании, создавая объект JSON с полями для «соответствует» (да, нет или «нужно проверить») и «объяснение». Оцениваются как соответствие, так и качество объяснения. Обучающие данные должны быть в формате JSONL и включать ожидаемые структурированные выходные данные.
Во время обучения OpenAI отслеживает такие показатели, как среднее вознаграждение как на обучающем, так и на проверочном наборах. Высокопроизводительные контрольные точки можно тестировать по отдельности или возобновлять по мере необходимости. RFT полностью интегрирован с инструментами оценки OpenAI.
OpenAI впервые представил RFT как экспериментальную технику в исследовательской программе в декабре 2024 года. Первые результаты показали многообещающие результаты в специализированных областях. Исследователь OpenAI Рохан Панди говорит, что RFT может быть особенно ценным для вертикальных стартапов, которые обучают специализированных агентов на редких данных.
Наряду с расширенной программой RFT для o4-mini, OpenAI теперь предлагает контролируемую тонкую настройку для модели GPT-4.1 nano, описанной как самый быстрый и экономически эффективный вариант GPT-4. Это позволяет организациям выполнять традиционные корректировки с использованием фиксированных пар «вход-ответ». Организации, которые делятся своими данными обучения с OpenAI, получают скидку 50%. Результаты доступны через стандартный API и могут быть напрямую интегрированы в существующие приложения.
Источник
Источник: habr.com