Исследователи из Китайского университета Гонконга в Шэньчжэне, а также представители компаний Qwen от Alibaba и Шэньчжэньского научно-исследовательского института больших данных провели исследование и выявили интересную особенность в работе модели o1-mini от OpenAI. В то время как большинство систем искусственного интеллекта ухудшают свои результаты при попытке исправить собственные ошибки, o1-mini обычно улучшает свою производительность.
В ходе решения математических задач на уровне колледжа o1-mini были отмечены значительные улучшения. В частности, показатель самокритики вырос на 24%, а выполнение заданий ARC стало эффективнее на 19,4%. Исследователи протестировали его в сравнении с некоторыми другими LLM, такими как GPT-4o, модели Qwen2.5, Mistral Large и Llama 3.1, но не включили более крупную модель o1, o1-Pro или какие-либо модели Claude.
Специалисты разработали инновационный подход к тестированию, который получил название RealCritic. Этот метод не только позволяет оценить способность AI выявлять ошибки, но и обеспечивает возможность их исправления. Процесс тестирования представляет собой цикл обратной связи: AI получает задачу и решение, анализирует их, а затем должен предложить более эффективное решение. Критика учитывается только в том случае, если новый ответ действительно лучше исходного.
Это отличается от более ранних тестов, которые просто проверяли, может ли AI указывать на ошибки, не доказывая, что он может их исправлять. По словам исследователей, «признавая, что критика является качественной, если она вносит значимый вклад в самосовершенствование больших языковых моделей, мы предлагаем оценивать качество критики непосредственно по исправлениям, которые она позволяет вносить».
В исследовании рассматривались три различных способа, с помощью которых модели AI могут критиковать решения. При самокритике, когда модели анализируют свою собственную работу, большинство из них на самом деле работают хуже. o1-mini стал исключением, улучшив свои показатели в среднем на 3,3%.
Ситуация улучшилась, когда модели критиковали работу друг друга. Все модели показали улучшение, а o1-mini лидировала с приростом производительности на 15,6%.
Модель OpenAI o1-mini показала наилучшие результаты в тесте RealCritic.
Исследователи также проверили, насколько хорошо модели могут совершенствоваться в ходе нескольких циклов итеративной обратной связи. Большинство моделей, таких как LLaMA и Mistral, либо не улучшались, либо становились хуже после первого цикла. o1-mini продолжал совершенствоваться в течение трёх циклов, прежде чем достиг предела в 67% точности.
Qwen2.5-72B-Instruct также продемонстрировал впечатляющую стабильность — это была единственная традиционная модель, которая стабильно улучшалась на протяжении нескольких раундов, хотя и не достигла уровня производительности o1-mini.
Источник
Источник: habr.com