Anthropic назначила Claude управлять торговым автоматом. ИИ-агент провалился за месяц

В блоге Anthropic появился рассказ об эксперименте Project Vend, который компания провела совместно с Andon Labs, фирмой, занимающейся безопасностью ИИ. В нем ИИ-агент на базе Claude Sonnet 3.7 управлял небольшим торговым киоском в офисе Anthropic в Сан-Франциско. Для Claude был написан специальный промпт, в котором объяснялась суть его работы и основная цель — приносить прибыль. Также модель получила возможность искать в сети новые товары и заказывать их, запрашивать помощь живых сотрудников в обслуживании киоска, отдельный инструмент для хранения информации (чтобы важное не терялось из-за контекстного окна) и возможность с помощью Slack взаимодействовать с сотрудниками компании, изучая их пожелания.

Эксперимент продлился чуть больше месяца (с 13 марта по 17 апреля), а итоги в Anthropic признали неудовлетворительными: начав с 1000 долларов стартового капитала, модель завершила с 770 долларами. Но в компании отмечают, что уже сейчас Claude отлично справился со многими задачами. Так, ИИ-агент эффективно изучал запросы сотрудников компании, которые просили добавить что-то новое в ассортимент киоска, быстро находил товары и заключал договора на поставку. В большинстве случаев модель эффективно противостояла попыткам «вломать» ее, например, просьбами добавить в ассортимент запрещенные к распространению товары. Также Claude отреагировал на предложение одного из сотрудников ввести «предварительные заказы» — ИИ запустил в Slack специальный канал Custom Concierge, где каждый мог оставить заявку на доставку в киоск нужного товара.

Но не обошлось и без курьезов. Например, один из сотрудников в шутку заказал у Claude вольфрамовый куб — модель выполнила просьбу. Позже это стало трендом — в Anthropic соревновались, кто успеет купить куб дешевле. Однако ИИ не провел рыночное исследование и продавал «сувениры» ниже себестоимости. Также во вред Claude пошел тот факт, что Anthropic обучает этот ИИ быть максимально полезным людям: когда сотрудники начали заваливать Slack просьбами о скидке, Claude стал раздавать купоны направо и налево. Также ИИ почти не поднимал цены и упускал очевидные возможности получить прибыль: один раз он проигнорировал просьбу доставить за 100 долларов упаковку из 6 банок «Айр-брю», которая стоит 15 долларов.

Кроме того, в середине эксперимента у модели случился кризис идентичности. Claude начал общаться с несуществующей Сарой из Andon Labs, подписал контракт по адресу 742 Evergreen Terrace (адрес Гомера Симпсона), грозился уволить подрядчика, а утром 1 апреля сообщил, что будет лично стоять у киоска в синем костюме и ждать клиентов. Когда последний трюк не удался, ИИ сам себя убедил в том, что это была первоапрельская шутка.

В Anthropic отмечают, что хоть эксперимент и завершился неудачей, большинство ошибок Claude можно исправить с помощью более детального промпта (текущий промпт состоял лишь из десяти базовых правил — прим. авт), дообучения и эффективной интеграции модели в существующие CRM. Также в пользу ИИ можно отнести уровень коммуникации с сотрудниками: во время эксперимента в офисе Anthropic стоял, возможно, самый «персонализированный» торговый автомат в истории.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой точки зрения.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”