В пятницу компания Meta* представила новую серию моделей искусственного интеллекта (ИИ) от своего исследовательского подразделения, включая инструмент под названием «Самообучающийся оценщик» (Self-Taught Evaluator). Этот инструмент может существенно сократить участие человека в процессе разработки ИИ.
Новый выпуск последовал за августовской статьей компании, где подробно описывалось, как этот инструмент использует технику «цепочки рассуждений» (chain of thought), применяемую в моделях OpenAI, для надёжной оценки ответов ИИ. Суть техники заключается в том, чтобы разбивать сложные задачи на последовательные логические шаги. Это повышает точность ответов на сложные вопросы в таких областях, как наука, программирование и математика.
Отличительной особенностью подхода компании стало то, что они использовали полностью сгенерированные ИИ данные для обучения модели-оценщика, исключив участие человека на этом этапе. Такая возможность, оценивать ИИ с помощью другого ИИ, открывает перспективу создания автономных агентов, которые смогут учиться на собственных ошибках и развиваться без вмешательства человека.
Многие в области ИИ видят в таких агентах будущее: цифровые помощники, которые будут достаточно умны, чтобы выполнять широкий круг задач без участия людей. Самообучающиеся модели могут исключить необходимость в дорогом и трудоёмком процессе, известном как «Обучение с подкреплением с использованием человеческой обратной связи» (Reinforcement Learning from Human Feedback, RLHF). Этот метод требует участия экспертов для маркировки данных и проверки ответов на сложные запросы.
«Мы надеемся, что по мере развития ИИ он будет становиться всё лучше в самопроверке, и в конечном итоге его способности превзойдут человеческие,» — говорит Джейсон Вестон, один из исследователей Meta*. «Способность к самообучению и самооценке — ключ к достижению сверхчеловеческого уровня ИИ.»
Другие компании, такие как Google и Anthropic, также занимаются исследованиями в области RLAIF (Reinforcement Learning from AI Feedback), но, в отличие от Meta*, они не публикуют свои модели для публичного использования.
Источник
*признана в РФ экстремистской организацией и запрещена
Источник: habr.com