Сэм Альтман рассказал, как будут оценивать GPT-6

Глава OpenAI Сэм Альтман в интервью Роуэну Ченгу рассказал, что эффективность следующего поколения ChatGPT — условной GPT-6 — будут оценивать «по созданной ценности, а не по набору тестов». По его словам, команда работает над новой метрикой под условным названием GDPval, которая должна отражать, какую реальную пользу приносит модель в задачах пользователей и бизнеса.

Альтман отметил, что нынешние бенчмарки уже не отражают реальных возможностей систем: они проверяют умение решать короткие задачи, но не показывают, насколько ИИ способен быть надежным помощником в долгих процессах. В GPT-6 акцент сделают на том, насколько модель справляется с многошаговыми сценариями — например, при самостоятельной работе агентов, которые могут выполнять задачи часами или днями.

Он подчеркнул, что «агенты — не демонстрация, а будущий производственный контур компаний». В OpenAI считают, что именно через таких агентов будет оцениваться реальная эффективность модели: по завершённым делам, устойчивости к сбоям и качеству взаимодействия с внешними инструментами.

Альтман также подтвердил интерес к идее так называемых «компаний с нулевым штатом» (zero-person companies) — бизнесов, где люди задают цели, а всю операционную работу выполняют программные агенты. По его словам, подобные структуры могут появиться раньше, чем ожидается, и станут тестовой площадкой для оценки GPT-6 по новой метрике.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”