Reuters: Meta* выпускает модель искусственного интеллекта, которая может проверять работу других ИИ-моделей

В пятницу компания Meta* представила новую серию моделей искусственного интеллекта (ИИ) от своего исследовательского подразделения, включая инструмент под названием «Самообучающийся оценщик» (Self-Taught Evaluator). Этот инструмент может существенно сократить участие человека в процессе разработки ИИ.

Новый выпуск последовал за августовской статьей компании, где подробно описывалось, как этот инструмент использует технику «цепочки рассуждений» (chain of thought), применяемую в моделях OpenAI, для надёжной оценки ответов ИИ. Суть техники заключается в том, чтобы разбивать сложные задачи на последовательные логические шаги. Это повышает точность ответов на сложные вопросы в таких областях, как наука, программирование и математика.

Отличительной особенностью подхода компании стало то, что они использовали полностью сгенерированные ИИ данные для обучения модели-оценщика, исключив участие человека на этом этапе. Такая возможность, оценивать ИИ с помощью другого ИИ, открывает перспективу создания автономных агентов, которые смогут учиться на собственных ошибках и развиваться без вмешательства человека.

Многие в области ИИ видят в таких агентах будущее: цифровые помощники, которые будут достаточно умны, чтобы выполнять широкий круг задач без участия людей. Самообучающиеся модели могут исключить необходимость в дорогом и трудоёмком процессе, известном как «Обучение с подкреплением с использованием человеческой обратной связи» (Reinforcement Learning from Human Feedback, RLHF). Этот метод требует участия экспертов для маркировки данных и проверки ответов на сложные запросы.

«Мы надеемся, что по мере развития ИИ он будет становиться всё лучше в самопроверке, и в конечном итоге его способности превзойдут человеческие,» — говорит Джейсон Вестон, один из исследователей Meta*. «Способность к самообучению и самооценке — ключ к достижению сверхчеловеческого уровня ИИ.»

Другие компании, такие как Google и Anthropic, также занимаются исследованиями в области RLAIF (Reinforcement Learning from AI Feedback), но, в отличие от Meta*, они не публикуют свои модели для публичного использования.

Источник

*признана в РФ экстремистской организацией и запрещена

Источник: habr.com

0 0 голоса

Рейтинг новости

15961

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”