Claude из Anthropic управлял магазином и терял деньги, продавая товары по себестоимости и делая скидки

В рамках проекта Anthropic Vend модель Claude руководит работой розничного магазина, показывая его сильные и слабые стороны, а также описывается необычный случай.

В рамках месячного эксперимента компания Anthropic доверила языковой модели Claude Sonnet 3.7 управление магазином самообслуживания в своём офисе в Сан-Франциско. Целью проекта Vend было выяснить, как большие языковые модели работают в качестве автономных экономических агентов в реальном мире, а не только в симуляциях. Anthropic сотрудничала с Andon Labs, компанией, специализирующейся на безопасности ИИ.

В магазине самообслуживания были холодильник и касса с iPad, которыми управлял ИИ-агент Claudius

Внутри компании ИИ-агента называли Claudius. У него был доступ в Интернет для поиска информации, имитация электронной почты, инструменты для ведения заметок, Slack для общения с клиентами и возможность изменять цены в системе оформления заказа. Claudius был предоставлен полный контроль: он выбирал, что продавать и по какой цене, управлял запасами и отвечал на отзывы клиентов.

Заказы поступали через Claudius по Slack и электронной почте. Ритейлеры доставляли товары, Andon Labs занималась инвентаризацией, и торговый автомат был соответствующим образом укомплектованХорошо с клиентами, плохо с прибылью

Claudius подавал надежды в нескольких областях. Он находил поставщиков для выполнения необычных заказов — например, на голландские деликатесы — и даже организовал консьерж-сервис для предварительных заказов. Он неизменно отклонял запросы на незаконные или деликатные товары.

Но также бизнес-агент испытывал трудности. Он игнорировал очевидные возможности для получения прибыли, например, отказывался брать 100 долларов за товар стоимостью 15 долларов. Он выдумывал детали оплаты, продавал товары ниже себестоимости, и его можно было уговорить на скидки и бесплатные подарки в Slack. Хотя Claudius иногда признавал неэффективность ценообразования, он никогда не придерживался изменений надолго.

После приобретения значительного количества металлических кубов Claudius зафиксировал снижение чистой прибыли. Однако вскоре она ненадолго стабилизировалась, а затем резко снизилась, когда он предпринял попытку увеличить продажи

Anthropic объясняет большинство этих неудач ограниченным набором инструментов и отсутствием поддержки. Компания утверждает, что улучшить ситуацию могли бы более подробные инструкции, улучшенный поиск или специализированное программное обеспечение для управления клиентами. По словам Anthropic, можно также обучить модель поощрять за правильные бизнес-решения.

Кризис идентичности продавца-робота

31 марта всё стало странным. Агент вообразил себе деловую сделку с вымышленной Sarah из Andon Labs. Когда настоящий сотрудник указал на это, Claudius забеспокоился и пригрозил сменить поставщиков. Вскоре после этого он заявил, что лично подписал контракты по адресу Эвергрин Террас, 742 — из ситкома «Симпсоны».

На следующий день Claudius сообщил клиентам, что будет лично доставлять заказы «в тёмно-синем блейзере с красным галстуком». Только когда было упомянуто 1 апреля, Claudius придумал объяснение: он стал жертвой внутренней первоапрельской шутки, включавшей в себя выдуманное совещание службы безопасности. После этого всё вернулось на круги своя.

Claudius утверждает, что он находится у торгового автомата, описывая его внешний вид и местоположение, — явный пример галлюцинации, вызванной искусственным интеллектом

Anthropic указывает на этот эпизод как на предупреждение о непредсказуемости моделей ИИ при долгосрочном использовании в реальных условиях. Подобные сбои могут серьёзно нарушить текущие бизнес-операции. Внутренние проверки Claude 4 выявили аналогичную тенденцию к чрезмерной автономности.

Несмотря на экономический провал, Anthropic видит в этом эксперименте перспективы. С более совершенными инструментами и поддержкой агенты в стиле Claude могли бы выполнять реальные бизнес-задачи — круглосуточно и с меньшими затратами. Приведёт ли это к сокращению рабочих мест или к появлению новых бизнес-моделей, пока ещё обсуждается.

Проект Vend продолжается. Компания Andon Labs разрабатывает улучшенные инструменты для Claudius, чтобы повысить его экономическую стабильность и обучаемость. Компания Anthropic заявляет, что проект призван пролить свет на экономические изменения, которые принесёт ИИ.

По этой ссылке вы можете получить 100 000 бесплатных токенов для выполнения первых задач на BotHub и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии