Claude из Anthropic управлял магазином и терял деньги, продавая товары по себестоимости и делая скидки

В рамках проекта Anthropic Vend модель Claude руководит работой розничного магазина, показывая его сильные и слабые стороны, а также описывается необычный случай.

В рамках месячного эксперимента компания Anthropic доверила языковой модели Claude Sonnet 3.7 управление магазином самообслуживания в своём офисе в Сан-Франциско. Целью проекта Vend было выяснить, как большие языковые модели работают в качестве автономных экономических агентов в реальном мире, а не только в симуляциях. Anthropic сотрудничала с Andon Labs, компанией, специализирующейся на безопасности ИИ.

В магазине самообслуживания были холодильник и касса с iPad, которыми управлял ИИ-агент Claudius

Внутри компании ИИ-агента называли Claudius. У него был доступ в Интернет для поиска информации, имитация электронной почты, инструменты для ведения заметок, Slack для общения с клиентами и возможность изменять цены в системе оформления заказа. Claudius был предоставлен полный контроль: он выбирал, что продавать и по какой цене, управлял запасами и отвечал на отзывы клиентов.

Заказы поступали через Claudius по Slack и электронной почте. Ритейлеры доставляли товары, Andon Labs занималась инвентаризацией, и торговый автомат был соответствующим образом укомплектованХорошо с клиентами, плохо с прибылью

Claudius подавал надежды в нескольких областях. Он находил поставщиков для выполнения необычных заказов — например, на голландские деликатесы — и даже организовал консьерж-сервис для предварительных заказов. Он неизменно отклонял запросы на незаконные или деликатные товары.

Но также бизнес-агент испытывал трудности. Он игнорировал очевидные возможности для получения прибыли, например, отказывался брать 100 долларов за товар стоимостью 15 долларов. Он выдумывал детали оплаты, продавал товары ниже себестоимости, и его можно было уговорить на скидки и бесплатные подарки в Slack. Хотя Claudius иногда признавал неэффективность ценообразования, он никогда не придерживался изменений надолго.

После приобретения значительного количества металлических кубов Claudius зафиксировал снижение чистой прибыли. Однако вскоре она ненадолго стабилизировалась, а затем резко снизилась, когда он предпринял попытку увеличить продажи

Anthropic объясняет большинство этих неудач ограниченным набором инструментов и отсутствием поддержки. Компания утверждает, что улучшить ситуацию могли бы более подробные инструкции, улучшенный поиск или специализированное программное обеспечение для управления клиентами. По словам Anthropic, можно также обучить модель поощрять за правильные бизнес-решения.

Кризис идентичности продавца-робота

31 марта всё стало странным. Агент вообразил себе деловую сделку с вымышленной Sarah из Andon Labs. Когда настоящий сотрудник указал на это, Claudius забеспокоился и пригрозил сменить поставщиков. Вскоре после этого он заявил, что лично подписал контракты по адресу Эвергрин Террас, 742 — из ситкома «Симпсоны».

На следующий день Claudius сообщил клиентам, что будет лично доставлять заказы «в тёмно-синем блейзере с красным галстуком». Только когда было упомянуто 1 апреля, Claudius придумал объяснение: он стал жертвой внутренней первоапрельской шутки, включавшей в себя выдуманное совещание службы безопасности. После этого всё вернулось на круги своя.

Claudius утверждает, что он находится у торгового автомата, описывая его внешний вид и местоположение, — явный пример галлюцинации, вызванной искусственным интеллектом

Anthropic указывает на этот эпизод как на предупреждение о непредсказуемости моделей ИИ при долгосрочном использовании в реальных условиях. Подобные сбои могут серьёзно нарушить текущие бизнес-операции. Внутренние проверки Claude 4 выявили аналогичную тенденцию к чрезмерной автономности.

Несмотря на экономический провал, Anthropic видит в этом эксперименте перспективы. С более совершенными инструментами и поддержкой агенты в стиле Claude могли бы выполнять реальные бизнес-задачи — круглосуточно и с меньшими затратами. Приведёт ли это к сокращению рабочих мест или к появлению новых бизнес-моделей, пока ещё обсуждается.

Проект Vend продолжается. Компания Andon Labs разрабатывает улучшенные инструменты для Claudius, чтобы повысить его экономическую стабильность и обучаемость. Компания Anthropic заявляет, что проект призван пролить свет на экономические изменения, которые принесёт ИИ.

По этой ссылке вы можете получить 100 000 бесплатных токенов для выполнения первых задач на BotHub и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”