Бывший ведущий исследователь OpenAI и Tesla в сфере искусственного интеллекта Андрeй Карпати выступил с критикой использования reinforcement learning (RL) как основы обучения больших языковых моделей. В публикации на X он описал работу с RL-reward-функциями как «излишне подозрительную» — они ненадёжны, легко поддаются манипуляциям и плохо подходят для воспитания сложных интеллектуальных навыков.
Это заявление особенно резонансно на фоне того, что многие современные модели, способствующие развитию логического мышления у ИИ, активно используют именно RL. При этом Карпати отмечает, что такие модели достигли плато развития, и нужны новые подходы.
Однако он не отрицает ценность RL полностью. Он считает его развитие лучшим, чем классическое supervised finetuning, и прогнозирует, что RL-файнтюнинг будет продолжать применяться, особенно для улучшения поведения моделей.
Тем не менее, настоящий прорыв, по мнению Карпати, ждёт искусственный интеллект, когда появятся новые, более эффективные способы обучения — не путём подстройки весов модели, а через глубокие альтернативы. Один из упомянутых им подходов — system prompt learning, где учение происходит на уровне токенов и контекстов, а не веса модели, наподобие того, как мозг обрабатывает информацию во сне.
Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!
Источник
Источник: habr.com