Новый обзор показывает, что хотя OpenAI был первым, кто выдвинул на первый план языковые модели, подерживающие рассуждения, Deepseek-R1 вывел исследования в этой области на новый уровень. С момента своего выпуска около четырех месяцев назад Deepseek-R1 привлек внимание тем, что обеспечивает сильное логическое мышление с гораздо меньшими ресурсами обучения, чем предыдущие модели. Его запуск вызвал шквал попыток копирования в отрасли — например, сообщается, что Meta сформировала специальные команды для изучения и имитации модели.
Исследователи из SEO-агентства и нескольких университетов Китая и Сингапура теперь изучили, как R1 изменил ландшафт. Их анализ показывает, что, в то время как OpenAI задал курс, Deepseek-R1 сыграл важную роль в ускорении недавнего всплеска языковых моделей, ориентированных на рассуждения.
Одним из ключевых факторов была контролируемая тонкая настройка (SFT), где базовые модели переобучаются с использованием тщательно подобранных пошаговых объяснений. Метаанализ показал, что качество важнее, чем чистый объем: несколько тысяч тщательно проверенных примеров могут поднять даже модели 7B или 1,5B на высокий уровень, в то время как миллионы плохо отфильтрованных образцов дают лишь незначительные улучшения.
Это бросает вызов старому предположению, что глубокое рассуждение всегда требует массивных моделей. Базовая архитектура все еще устанавливает верхние пределы, но модели, ориентированные на рассуждение, могут более эффективно использовать эти ресурсы в некоторых областях.
Обучение с подкреплением также стало более важным для формирования навыков рассуждения. Выделяются два алгоритма: PPO (Proximal Policy Optimization) и GRPO (Group Relative Policy Optimization). Оба существовали до Deepseek-R1, но всплеск интереса привел к их гораздо более широкому использованию.
PPO подстраивает веса модели шаг за шагом, но только настолько, чтобы новые стратегии были близки к предыдущим. Встроенный механизм отсечения предотвращает крупные скачки и сохраняет стабильность обучения.
GRPO идет дальше, генерируя несколько вариантов ответов для каждой подсказки, сравнивая их награды внутри группы и обновляя модель на основе их относительных баллов. Благодаря групповой нормализации GRPO не нуждается в отдельной сети создания ценностей и остается эффективным даже при длинных ответах с цепочкой мыслей.
Исследователи тестируют новые подходы к обучению этих моделей. Один из эффективных методов — начинать с более коротких ответов и постепенно увеличивать их длину. Обучение по учебной программе , где задания усложняются шаг за шагом, также показало хорошие результаты. Согласно исследованию, это говорит о том, что модели ИИ могут обучаться способами, которые напоминают то, как люди осваивают новые навыки .
Еще одна важная тенденция — привнесение навыков рассуждения в мультимодальные задачи. Ранние исследования были сосредоточены на переносе этих способностей в анализ изображений и аудио, и до сих пор рассуждения, разработанные в текстовых моделях, часто переносятся в другие области.
Например, последняя модель o3 от OpenAI включает изображения и использование инструментов непосредственно в свой процесс рассуждений — то, что не было доступно или не было выделено, когда модель была запущена в декабре прошлого года. Тем не менее, исследователи говорят, что есть много возможностей для улучшения.
Лучшее рассуждение также означает новые проблемы в области безопасности и эффективности. Исследователи работают над способами предотвращения нежелательного поведения, такого как «чрезмерное обдумывание».
Один пример: модель рассуждений Phi 4 от Microsoft, как сообщается, генерирует более 50 «мыслей» только для того, чтобы ответить на простое «Привет». Анализ, проведенный Artificial Analysis, показал, что рассуждения увеличивают использование токенов модели Flash 2.5 от Google в 17 раз, что приводит к увеличению как вычислений, так и затрат.
Хотя рассуждения могут повысить качество и безопасность результатов AI, они также могут означать гораздо более высокие вычислительные требования, рост затрат, а иногда и неэффективное поведение.
Это делает более важным выбор правильного инструмента для работы. На данный момент нет четкого консенсуса относительно того, когда использовать стандартную степень магистра права, а когда обращаться к модели рассуждения — за исключением особо сложных задач по логике, науке или кодированию.
Недавно OpenAI опубликовал руководство по выбору среди своих собственных моделей. Совет предлагает отправную точку, но не полностью определяет, когда рассуждение является правильным выбором. На практике это зависит от контекста — и от баланса эффективности, стоимости и того, насколько глубокий ответ вам нужен. А если определиться, опираясь на руководство не получается, можете перейти на BotHub по ссылке и протестировать каждую модель самостоятельно, поскольку новые пользователи получают 100 000 премиум-токенов.
Безопасность — еще одна важная проблема. Модели рассуждений сложнее взломать из-за их структурированного процесса мышления, но они также несут с собой новые риски: если логика рассуждений подвергается манипуляциям , эти системы все равно можно обмануть и заставить их выдавать вредоносные или проблемные результаты — даже при наличии мер безопасности. В результате атаки с использованием джейлбрейка остаются постоянной проблемой.
Исследование приходит к выводу, что Deepseek-R1 сыграл ключевую роль в ускорении разработки моделей языка рассуждений. Авторы рассматривают эти достижения как только начало, а следующий этап будет сосредоточен на расширении рассуждений для новых приложений, повышении надежности и поиске еще более эффективных способов обучения этих систем.
Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации
Источник
Источник: habr.com