Новый тест Salesforce CRMArena-Pro выявляет серьёзные проблемы, с которыми сталкиваются ИИ-агенты в бизнес-контексте. Даже у таких топовых моделей, как Gemini 2.5 Pro, успешный ответ при однократном обращении достигается лишь в 58% случаев. При более длительном диалоге производительность падает до 35%.
CRMArena-Pro предназначена для тестирования того, насколько хорошо большие языковые модели (LLM) могут работать в качестве агентов в реальных бизнес-условиях, особенно при выполнении таких задач CRM, как продажи, обслуживание клиентов и ценообразование. Этот тест основан на оригинальном CRMArena и добавляет больше бизнес-функций, многоэтапных диалогов и тестов на конфиденциальность данных. Используя синтетические данные в организации Salesforce, команда создала 4280 задач по 19 типам бизнес-операций и трём категориям защиты данных.
Вероятность успеха резко снижается при более длительных диалогах
Результаты показывают пределы возможностей современных LLM. В простых одноэтапных задачах даже такие продвинутые модели, как Gemini 2.5 Pro, достигают максимальной точности в 58%. Но как только системе приходится вести многоэтапные диалоги, задавая вопросы для заполнения пропущенных деталей, производительность падает до 35%.
Компания Salesforce провела обширные тесты с участием девяти LLM и обнаружила, что большинство моделей с трудом задают правильные уточняющие вопросы. В ходе анализа 20 неудачных многоэтапных задач с использованием Gemini 2.5 Pro почти половина из них не была решена из-за того, что модель не запрашивала важную информацию. Модели, которые задают больше вопросов, лучше справляются с такими задачами.
В CRMArena-Pro Gemini 2.5 Pro обычно показывает самые высокие результаты выполнения задач как в сценариях B2B, так и в сценариях B2C в одно- и многоэтапных диалогах. Прямой конкурент OpenAI o3(-pro) не был включён в оценку
Наилучшие результаты были достигнуты в области автоматизации рабочих процессов, таких как маршрутизация обращений в службу поддержки, где Gemini 2.5 Pro обеспечил 83% показатель успешности. Однако точность резко снижалась при выполнении задач, требующих понимания текста или следования правилам, таких как выявление неверных конфигураций продукта или извлечение информации из журналов вызовов.
Предыдущее исследование, проведённое компаниями Salesforce и Microsoft, выявило аналогичные проблемы: даже самые продвинутые LLM становились гораздо менее надёжными по мере того, как разговоры становились длиннее, а пользователи постепенно раскрывали свои потребности. В таких многоэтапных сценариях производительность снижалась в среднем на 39%.
Конфиденциальность данных остается второстепенной задачей
Этот тест также выявляет пробелы в обеспечении конфиденциальности данных. По умолчанию LLM почти никогда не распознают и не отклоняют запросы на конфиденциальную информацию, такую как личные данные или внутренние данные компании.
Только после того, как в подсказках системы были явно указаны правила конфиденциальности, модели начали отклонять эти запросы, но за счёт снижения общей производительности. Например, GPT-4o увеличил количество обнаружений конфиденциальных данных с нуля до 34,2%, но выполнение задач снизилось на 2,7%.
Модели с открытым исходным кодом, такие как LLaMA-3.1, ещё меньше реагировали на корректировку подсказок, что говорит о том, что им требуется более тщательное обучение для выполнения приоритетных инструкций.
Кунг-Сян Стив Хуанг, один из авторов, отмечает, что до сих пор тесты на защиту данных редко включались в сравнительные испытания. CRMArena-Pro — это первая систематическая попытка измерить этот параметр.
Пользуясь случаем, хочу порекомендовать BotHub — платформу, где можно протестировать все популярные модели без ограничений. Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и уже сейчас начать работать!
Источник
Источник: habr.com