OpenAI представила модели o3: думают как о1, но делают всё гораздо лучше

Сегодня, 20 декабря, компания OpenAI официально представила миру семейство моделей o3 (на данный момент речь идёт про o3 и o3-mini), которые выступают преемниками «разумной» о1 и ещё на шаг приближают разработчика к созданию общего искусственного интеллекта. Например, в рамках теста ARC-AGI, который был специально создан для сравнения возможностей искусственного интеллекта с интеллектом человека, модель o3 более чем в три раза превзошла возможности o1, продемонстрировав результат в 88%.

А в рамках теста EpochAI’s Frontier Math новая модель поставила новый рекорд, решив 25,2% задач. Стоит отметить, что ни одна другая модель ранее не могла превзойти отметку даже в 2%.

Кроме того, при прохождении теста AIME 2024 модель o3 набрала 96,7%, пропустив всего один вопрос, а в процессе испытания GPQA Diamond модель набрала 87,7% — значительно больше, чем любой результат человека-эксперта. Есть внушительные достижения и в вопросах написания кода — при прохождении бенчмарка SWE-bench Verified свежая модель набрала 71,7% точности ответов, тогда как версия o1 preview демонстрирует всего 41,3% точности. В Codeforces o3 набирает 2727 баллов — почти в 2,5 раза больше собрата. И это при учёте того, что модель o1 на самом деле тоже весьма производительная и «умная».

Весомым преимуществом o3, как и o1, является возможность модели «рассуждать» и эффективно проверять свои же факты, чтобы избегать различного рода ошибок и галлюцинаций. Правда, разработчики из OpenAI заявили, что процесс проверки фактов перед выдачей ответа приводит к небольшой задержке — от нескольких секунд до нескольких минут (зависит от сложности вопроса). Но преимущество в том, что эта задержка, связанная с тем, что искусственный интеллект «думает» перед тем, как ответить пользователю, позволяет модели более точно отвечать на вопросы по физике, математике и прочих точных науках.

Хорошая новость в том, что пользователь может регулировать время рассуждений модели — можно настроить низкий, средний или высокий уровень времени на обдумывание ответа (чем выше этот уровень, тем лучше работает o3). При этом журналисты из издания TechCrunch отмечают, что основной недостаток «рассуждающих» моделей в том, что для их работы требуется гораздо больше вычислительных мощностей, так что в итоге они дороже «обычных» решений. И хотя пока что такие ИИ показывают внушительный прирост результатов в бенчмарках, не совсем ясно, смогут ли модели поддерживать такие темпы в обозримом будущем.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости

6336

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”