OpenAI o3-pro может оказаться слишком умным для светской беседы

Компания OpenAI запустила o3-pro для пользователей Pro в ChatGPT и через API. Новая модель предназначена для предоставления более надёжных и подробных ответов за счёт использования большей вычислительной мощности, хотя это приводит к заметному замедлению времени ответа даже на простые запросы.

Хотя OpenAI не раскрывает конкретных технических деталей, некоторые наблюдатели считают, что o3-pro, как и предыдущий o1-pro, может выполнять несколько проходов для каждого запроса и использовать что-то вроде консенсусного подхода для уточнения ответов.

o3-pro предназначен для сложных задач в таких областях, как математика, естественные науки и программирование, где надёжность важнее скорости. OpenAI рекомендует эту модель для ситуаций, в которых более длительное ожидание ответа является приемлемым компромиссом ради большей точности.

В отличие от o1-pro, o3-pro может работать с более широким спектром инструментов. Модель способна выполнять поиск в интернете, анализировать файлы, обрабатывать визуальные данные, использовать Python и персонализировать ответы с помощью функций памяти. Этот расширенный набор инструментов обычно приводит к увеличению времени ожидания по сравнению с более ранними моделями.

o3-pro: хорошо справляется со сложными задачами, но не любит светскую беседу

По данным OpenAI, экспертные оценки показывают, что o3-pro превосходит o3 по всем протестированным категориям, особенно в области науки, образования, программирования, бизнеса и поддержки написания текстов. Модель неизменно получает более высокие оценки за ясность, полноту, следование инструкциям и точность. OpenAI использует тест на надёжность, который требует, чтобы модель правильно ответила на вопрос с четырёх попыток, чтобы засчитать ответ как успешный. Академические оценки показывают, что o3-pro превосходит o1-pro и o3 по этим показателям.

На данный момент существует несколько независимых тестов для o3-pro. Бен Хайлак из Raindrop.ai, у которого был ранний доступ к модели, сообщил, что сильные стороны модели проявляются в основном при выполнении сложных задач, требующих обширного контекста. Простые вопросы или тесты не выделялись на фоне остальных, но при наличии подробной справочной информации — такой как планы компании и заметки о встречах — o3-pro могла составить комплексный план с конкретными показателями и сроками. Хайлак отмечает, что такие качественные улучшения сложно измерить с помощью стандартных методов оценки.

Для повседневного общения модель кажется менее подходящей. Юйчэнь Цзинь, технический директор Hyperbolic Labs, продемонстрировал на X, как o3-pro обрабатывает простое приветствие «Привет, я Сэм Альтман»: модель потратила от 4 до 14 минут, обошлась примерно в 80 долларов и в итоге ответила: «Привет, Сэм Альтман. Чем я могу вам помочь сегодня?». Явный случай переосмысления.

Высокие затраты и текущие ограничения

o3-pro теперь доступен для пользователей Pro и Team, заменив o1-pro. Пользователи Enterprise и Edu получат доступ на следующей неделе. Для разработчиков модель в настоящее время доступна только через Responses API, что позволяет поддерживать расширенные функции, такие как многоэтапное взаимодействие, прежде чем отвечать на запросы API. o3-pro поддерживает контекстное окно из 200 000 токенов и может генерировать до 100 000 выходных токенов.

Цены на o3-pro значительно выше, чем на другие доступные модели: входные токены стоят 20 долларов за миллион, а выходные — 80 долларов за миллион. Однако это более чем на 80% ниже, чем предыдущие цены на o1-pro. Цены на o3 также были значительно снижены, что сделало его на 80% дешевле, чем всего несколько дней назад.

Некоторые ограничения остаются в силе. Отключены временные чаты из-за технической проблемы. Генерация изображений не поддерживается; пользователям рекомендуется использовать для этой функции GPT-4o, o3 или o4-mini. Функция Canvas в настоящее время также недоступна.

Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”