Бывший исследователь OpenAI раскритиковал RL как основу тренировки LLM

Бывший ведущий исследователь OpenAI и Tesla в сфере искусственного интеллекта Андрeй Карпати выступил с критикой использования reinforcement learning (RL) как основы обучения больших языковых моделей. В публикации на X он описал работу с RL-reward-функциями как «излишне подозрительную» — они ненадёжны, легко поддаются манипуляциям и плохо подходят для воспитания сложных интеллектуальных навыков.

Это заявление особенно резонансно на фоне того, что многие современные модели, способствующие развитию логического мышления у ИИ, активно используют именно RL. При этом Карпати отмечает, что такие модели достигли плато развития, и нужны новые подходы.

Однако он не отрицает ценность RL полностью. Он считает его развитие лучшим, чем классическое supervised finetuning, и прогнозирует, что RL-файнтюнинг будет продолжать применяться, особенно для улучшения поведения моделей.

Тем не менее, настоящий прорыв, по мнению Карпати, ждёт искусственный интеллект, когда появятся новые, более эффективные способы обучения — не путём подстройки весов модели, а через глубокие альтернативы. Один из упомянутых им подходов — system prompt learning, где учение происходит на уровне токенов и контекстов, а не веса модели, наподобие того, как мозг обрабатывает информацию во сне.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии