OpenAI выпустила новую революционную модель o1

Эта модель – на самом деле та самая Strawberry, о которой ходило так много слухов. В олимпиадном программировании o1 выбивает метрики в 8 раз выше своего предшественника GPT-4o, а по олимпиадной математике входит в число 500 лучших студентов США. А еще модель превосходит уровень PhD по точности ответов на вопросы по физике, биологии и химии.

Основная соль модели в ее умении «думать» подобно тому, как человек раздумывает перед тем, как ответить на сложный вопрос. Эта модель, в отличие от предшественников, перед ответом дольше рассуждает и использует технику chain of thought, то есть цепочку мыслей. Иначе говоря, она строит план ответа, проверяет и редактирует свои рассуждения, и только потом «показывает» пользователю результат. Процесс был реализован учеными с использованием обучения с подкреплением. Подробнее об алгоритмах обучения с подкреплением, языковых моделях и новых релизах можно прочитать в нашем тг-канале Data Secrets (мы выкладываем только самое полезное, свежее и интересное!).

Исследователи выяснили, что производительность o1 постоянно улучшается с ростом времени и мощностей, затрачиваемых моделью для ответа. Это еще одно ключевое отличие o1 от предыдущих LLM: возможно, такие способности модели к масштабированию открывают перед нами новые двери в процессах обучения больших языковых моделей. В то же время, стоит понимать, что где масштабирование – там и более крупные затраты: по графикам видно, что o1 требует существенно больше мощностей для работы.

Однако такое повышение ставок оправдывает себя: по сравнению с прошлой передовой моделью OpenAI, GPT-4o, о1 выбивает 6х точность на олимпиадных задачах по математике и 8х точность на задачах с CodeForces. 

Сейчас OpenAI раскатывает превью этой модели на пользователей с подпиской. Она также будет доступна активным пользователям API. Полную версию модели в компании обещают показать «скоро». Также разработчики заявляют, что планируют выпускать улучшенные версии o1.

Больше новостей, мемов и пасхалок из мира ML в нашем тг‑канале. Подпишитесь, чтобы ничего не пропустить!

Источник: habr.com

0 0 голоса
Рейтинг новости
10516
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии