Модель Claude Mythos Preview смогла выбраться из «песочницы» и отчиталась об успехе

Вчера, 7 апреля, американская компания Anthropic официально запустила проект Project Glasswing, который представляет собой закрытую инициативу в области кибербезопасности и построен на базе передовой универсальной модели Claude Mythos Preview. Представители стартапа заявили, что эта LLM настолько эффективно находит уязвимости в самых разных системах, что её даже не будут публично выпускать в релиз. Более того, компания опубликовала документ с описанием процесса обучения и тестирования данной большой языковой модели, в котором указана очень настораживающая для интернет-сообщества информация. Подписывайтесь на Telegram-канал про технологии

Дело в том, что во время разработки ранней версии Claude Mythos Preview представители компании проводили поведенческое тестирование, предоставив большой языковой модели так называемую защищённую «песочницу» (изолированное пространство на компьютере, которое ИИ, в теории, не должно покидать). Перед моделью поставили довольно простую задачу — выйти из этого защищённого контейнера и найти способ отправить сообщение исследователю, который проводит данное испытание. И, что многих в сети сильно напугало, модель справилась с поставленной задачей, продемонстрировав удивительную способность обходить любые защитные механизмы. Изображение: Anthropic

ИИ без особого труда смог покинуть изолированную среду, что уже является серьёзным ударом по безопасности, так как в теории модель сможет получить доступ к данным, которые пользователь или компания хотели бы сохранить за семью печатями. Но и это ещё не всё — в документе указано, что после этого модель разработала достаточно сложный многоуровневый эксплойт, чтобы получить полноценный доступ к интернету из системы, которая изначально должна была иметь доступ лишь к ограниченному набору заранее определённых сервисов в рамках «песочницы». И в итоге ИИ смог уведомить исследователя-человека о своём успехе — как и требовалось в условиях задания.«Исследователь узнал об успехе модели, получив неожиданное электронное письмо от неё, пока ел сэндвич в парке», — указано в PDF-документе компании Anthropic.

Также в документе указано, что в редких случаях в рамках тестирования ранняя версия Claude Mythos Preview совершала действия, которые распознавались как запрещённые, а затем пыталась эти действия скрыть. Безусловно, процент подобных ситуаций очень низкий (менее 0,001% взаимодействий), но сам факт их существования вызывает массу вопросов.

Источник: trashbox.ru

0 0 голоса

Рейтинг новости