Глава OpenAI Сэм Альтман в интервью Роуэну Ченгу рассказал, что эффективность следующего поколения ChatGPT — условной GPT-6 — будут оценивать «по созданной ценности, а не по набору тестов». По его словам, команда работает над новой метрикой под условным названием GDPval, которая должна отражать, какую реальную пользу приносит модель в задачах пользователей и бизнеса.
Альтман отметил, что нынешние бенчмарки уже не отражают реальных возможностей систем: они проверяют умение решать короткие задачи, но не показывают, насколько ИИ способен быть надежным помощником в долгих процессах. В GPT-6 акцент сделают на том, насколько модель справляется с многошаговыми сценариями — например, при самостоятельной работе агентов, которые могут выполнять задачи часами или днями.
Он подчеркнул, что «агенты — не демонстрация, а будущий производственный контур компаний». В OpenAI считают, что именно через таких агентов будет оцениваться реальная эффективность модели: по завершённым делам, устойчивости к сбоям и качеству взаимодействия с внешними инструментами.
Альтман также подтвердил интерес к идее так называемых «компаний с нулевым штатом» (zero-person companies) — бизнесов, где люди задают цели, а всю операционную работу выполняют программные агенты. По его словам, подобные структуры могут появиться раньше, чем ожидается, и станут тестовой площадкой для оценки GPT-6 по новой метрике.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com