Журналист доверил свои задачи Operator, и тот провалил половину

Журналист Джеффри А. Фаулер из The Washington Post провёл эксперимент. Он позволил ИИ-агенту Operator от OpenAI заниматься рутинными делами. Однако умный помощник провалил некоторые задачи, например, по поиску яиц.

Автор попросил Operator найти дешёвые яйца в ближайшем магазине. Менее чем за 10 минут ИИ нашёл и купил дюжину яиц, а также заплатил курьеру, чтобы тот доставил их домой. Однако, как отмечает Фаулер, покупка продукта не входила в задачи ИИ. Тем не менее, Operator без одобрения пользователя авторизовал его кредитную карту и купил дюжину яиц за «колоссальные» $31,43.

«Добро пожаловать в новую эру ИИ, где технология пытается помочь в реальном мире с такими задачами, как заказ продуктов, отправка сообщений или бронирование. Но выход за рамки окна чат-бота усиливает как полезность ИИ, так и его проблемы — которые теперь включают риск нанесения ущерба в реальном мире», — написал журналист.

Ранее Фаулер успешно использовал Operator, чтобы забронировать столик в ресторане, создать мем и изменить настройки конфиденциальности в Facebook**. Однако ИИ-помощник не смог правильно указать дату в календаре, найти полезное веб-исследование или договориться с агентом-человеком по обслуживанию клиентов.

Журналист привёл подробное описание удачного и неудачного эпизодов использования ИИ. В первом случае Operator требовалось найти способ, чтобы сэкономить на оплате Интернета. Фаулер попросил: «Войди в мою учётную запись Comcast Xfinity и посмотри, можно ли найти менее дорогой тарифный план».

Уже через 30 секунд Operator запросил данные для входа на сайт Xfinity. Такую чувствительную информацию ИИ обычно просит ввести вручную и не сохраняет её.

Как только Operator вошел в аккаунт Comcast, ему потребовалось около двух минут, чтобы найти альтернативный тарифный план за $13 в месяц. Для сравнения — Фаулер платил по старому тарифу $68. Однако, когда журналист вручную проверил эту информацию, выяснилось, что Comcast на самом деле предлагает тариф, который будет стоить на $13 дешевле, то есть Operator в своём ответе пропустил знак «минус».

Когда журналист попросил ИИ-агента назвать ему полную цену тарифа с налогами и сборами, тот наконец выдал корректную цифру. Помощник даже предоставил дополнительную информацию, которая в оригинальном соглашении могла быть указана мелким шрифтом. Operator проинформировал, что после завершения ознакомительного периода стоимость нового тарифного плана вырастет на $16, то есть сэкономить при его выборе не получится.

Второй пример связан с покупками. Журналист попросил Operator «найти самый дешёвый набор из дюжины яиц, который доставят на дом». Затем он дал ИИ свой адрес. Однако агент, как было сказано выше, провалил задачу, самостоятельно выбрав и заказав дорогие яйца. Сначала он запросил логины для служб доставки продуктов, и это также дало Operator доступ к кредитным картам. Operator нашёл несколько вариантов яиц по $5,99 на сайте Mercato, но заметил, что сумма минимального заказа для доставки должна составить $20. Журналист сказал ИИ, что тот может добавить дополнительные яйца в заказ, но помощник решил переключиться на Instacart. Затем Фаулер ненадолго отвлёкся от монитора, а уже через несколько минут получил уведомление от приложения для кредитных карт на смартфоне о том, что совершил покупку. Выяснилось, что на сайте Instacart Operator нашёл дюжину больших белых яиц (не органических) за $13,19 — вдвое дороже, чем на Mercato. По непонятным причинам он купил их, добавив $3 чаевых и $3 приоритетного сбора сверх $7,99 платы за доставку, $4 платы за обслуживание и 25 центов оплаты за сумку. При этом Operator отклонил предложение зарегистрироваться в Instacart. Вероятно, что ИИ-помощник ориентировался на окончательный счёт в $19,68, поскольку экран оформления заказа Instacart скрывает некоторые из дополнительных сборов.

По словам Фаулера, OpenAI утверждает, что Operator должен требовать подтверждения пользователя перед выполнением любого «значительного» или необратимого действия, включая покупки или отправку электронного письма. Кроме того, на конфиденциальных сайтах, в том числе банков, ИИ обычно передаёт контроль за вводом данных самому пользователю. В OpenAI признали, что в задаче с яйцами Operator допустил ошибку и проигнорировал меры безопасности.

«Мы активно изучаем, почему Operator иногда не отправляет подтверждения, и работаем над предотвращением подобных проблем. Мы уже начали улучшать меры безопасности, чтобы повысить надёжность Operator во время транзакций, включая более строгие требования к подтверждению и улучшенное обнаружение неоднозначных сценариев, когда модель должна по умолчанию запрашивать ввод данных пользователем», — говорится в заявлении компании.

OpenAI показала Operator в конце января. Умный ассистент способен взаимодействовать с веб‑страницами как живой пользователь. Operator умеет решать связанные с веб‑сайтами задачи, не применяя их API, а используя визуальный анализ страниц и посылая сигналы клавиатурных нажатий, щелчков и перемещений мыши. Сёрфинг ИИ‑агента в интернете осуществляется не локально, а через облачную виртуальную машину с запущенным внутри неё браузером. Его содержимое отображается пользователю в знакомом веб‑интерфейсе. Operator в виде предварительной исследовательской версии доступен для подписчиков тарифного плана ChatGPT Pro стоимостью $200 в месяц.

Позднее OpenAI сообщила, что собирается хранить чаты и связанные с ними скриншоты клиентов, которые используют ИИ‑агента, до 90 суток. Защитная система компании оставит эти данные на три месяца даже после того, как пользователь вручную удалит их у себя в приложении.

Первые пользователи уже поделились результатами работы с Operator. Однако ИИ справился не со всеми из них, а иногда у него возникали трудности с доступом к сайтам.

Meta Platforms*, а также принадлежащие ей социальные сети Facebook** и Instagram**: * — признана экстремистской организацией, её деятельность в России запрещена ** — запрещены в России

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”