Компания Anthropic представила обновлённую версию своей ИИ-модели Claude 3.5 Sonnet, которая способна управлять приложениями, имитируя действия пользователя. Новое API «Использование компьютера» позволяет модели совершать нажатия клавиш, перемещать курсор и выполнять клики, по сути превращая её в виртуального помощника для автоматизации различных задач. Этот инструмент доступен в бета-версии и интегрируется с платформами Amazon Bedrock и Vertex AI.
Новый ИИ от Anthropic может управлять приложениями на ПК. Новые возможности Claude 3.5
Claude 3.5 Sonnet может видеть экран и управлять приложениями на основе данных, предоставленных пользователем. Это делает его полезным для автоматизации процессов, таких как заполнение форм, обработка писем и других офисных задач. Модель может не только анализировать текст, но и управлять интерфейсами программ.
Хотя другие компании, такие как Relay и Adept, разрабатывают похожие технологии, Claude 3.5 отличается точностью и способностью самостоятельно исправлять ошибки. Эта особенность позволяет ему выполнять задачи, которые включают множество шагов, что важно для сложных процессов автоматизации.
Преимущества и ограничения
Одним из ключевых преимуществ Claude 3.5 Sonnet является его «уровень выполнения действий», что позволяет ему взаимодействовать с настольными приложениями и веб-страницами. Это делает его полезным для таких задач, как дизайн, программирование или помощь в работе с приложениями. Например, Replit использовал раннюю версию модели для создания автономного инструмента, оценивающего программы в процессе их разработки, а Canva тестирует её для поддержки в дизайне.
Anthropic утверждает, что новая модель Sonnet 3.5 — это просто более сильная и надёжная модель, которая может лучше справляться с задачами по программированию, чем даже флагманский o1 от OpenAI, согласно тесту SWE-bench Verified. Несмотря на то, что обновлённый Sonnet 3.5 не обучался этому специально, он самостоятельно исправляет ошибки и повторяет попытки и может работать над задачами, которые требуют десятков или сотен шагов.
Однако на практике модель пока сталкивается с рядом проблем. Например, в тестах на изменение бронирования авиабилетов или возврат билетов, модель успешно справилась менее чем с половиной задач. Она также испытывает сложности с базовыми действиями, такими как прокрутка и масштабирование, а также может пропускать важные уведомления.
Anthropic признаёт, что технология находится на стадии развития, и рекомендует использовать её для задач с низким уровнем риска. Тем не менее, компания утверждает, что наблюдение за использованием модели в реальных условиях поможет быстрее выявить проблемы и улучшить её работу.
Вопросы безопасности
Одним из ключевых вызовов внедрения таких ИИ-агентов, как Claude 3.5 Sonnet, является вопрос безопасности. Исследования показывают, что ИИ-модели могут быть использованы для выполнения вредоносных действий при их взломе. Это вызывает беспокойство, особенно в отношении моделей, которые имеют доступ к настольным приложениям.
Anthropic внедрила несколько мер безопасности, чтобы минимизировать риски. Во время обучения модель была отключена от интернета, при этом не использовались пользовательские скриншоты. Кроме того, разработаны фильтры для предотвращения выполнения потенциально опасных действий, таких как создание учётных записей или публикации в социальных сетях.
Будущие разработки
Anthropic также анонсировала выпуск новой версии своей модели — Claude 3.5 Haiku, которая будет более доступной и эффективной версией Sonnet. Haiku будет отличаться высокой скоростью работы и улучшенным следованием инструкциям, что делает её подходящей для обработки больших объёмов данных.
Тестовая производительность Claude 3.5 Haiku
Claude 3.5 Haiku изначально будет доступна только в виде текстовой модели, а затем как часть мультимодального пакета, который сможет анализировать как текст, так и изображения.
Ознакомиться с другими моделями Claude и протестировать их можно на нашем сайте.
Компания продолжает работу над развитием своих ИИ-моделей и планирует выпуск Claude 3.5 Opus, которая станет преемником ранее выпущенной Claude 3 Opus. Каждая из моделей будет иметь свои специфические задачи, что обеспечит гибкость и возможности для автоматизации различных процессов.
Источник
Источник: habr.com