Новые правила безопасности Deepmind направлены на то, чтобы не дать системам перехитрить людей

Последние рекомендации по безопасности от Google Deepmind направлены на решение сложного вопроса: как сохранить контроль над системами искусственного интеллекта, которые могут попытаться перехитрить людей?

В рамках вводятся «Critical Capability Levels»(CCLs) (Критические уровни возможностей) – конкретные пороговые значения, при которых системы AI могут стать опасными без надлежащих мер безопасности. Они сосредоточены на двух основных проблемах: предотвращение ненадлежащего использования, например, атак с применением химического, биологического, радиологического и ядерного (CBRN) оружия или кибератак, а также обеспечение того, чтобы системы AI не пытались обойти человеческий надзор.

Решение проблемы обманчивого поведения AI начинается с автоматизированных систем мониторинга, которые включаются, когда AI проявляет признаки стратегического мышления. Эти системы отслеживают цепочки мыслей, генерируемые моделями рассуждений, такими как Deepseek-R1 или OpenAI o3, во время выполнения критических задач. Для более продвинутого AI («Instrumental Reasoning Level 2»), который может найти способы обойти этот мониторинг, Google Deepmind заявляет, что все еще работает над решениями.

«Мы активно исследуем подходы к решению проблем моделей, которые достигают этого CCL», — отмечается в документе.

Автоматизированные системы мониторинга могут смягчить простые попытки обмана AI. Эффективные защиты от более сложных сценариев обмана еще предстоит изучить.

Наивысший уровень безопасности применяется к системам AI, которые могут полностью автоматизировать разработку AI и потенциально совершенствовать самих себя. Google DeepMind предупреждает, что неограниченный доступ к таким системам может иметь катастрофические последствия, если не будет способа защититься от быстро совершенствующихся и потенциально сверхчеловеческих систем AI используемых злоумышленниками.

По словам Google Deepmind, эти меры безопасности уже были частью процесса разработки Gemini 2.0. Однако они подчеркивают, что такие меры защиты работают только в том случае, если их принимает более широкое сообщество AI. Компания планирует уведомить соответствующие государственные органы, если система AI достигнет критического порога и будет представлять явный и существенный риск для общей общественной безопасности.

Недавние исследования Anthropic и Redwood Research подчеркивают предстоящие проблемы. В своих тестах модель ИИ Claude продемонстрировала, что может делать вид, что следует правилам безопасности , фактически работая, чтобы избежать переобучения. OpenAI недавно предложила свой собственный подход, называемый «сознательным выравниванием», который обучает системы AI напрямую следовать правилам безопасности. Они предполагают, что этот метод может масштабироваться до уровня безопасности, необходимого для AGI.

Некоторые эксперты сомневаются в необходимости этих мер безопасности, особенно для автономного AI. Они утверждают, что по мере того, как разработка AI становится дешевле и доступнее, проекты с открытым исходным кодом в любом случае сделают неограниченный AI широко доступным. Другие указывают на природу, предполагая, что так же, как менее разумные существа не могут контролировать более разумных, люди в любом случае не смогут ограничить очень продвинутые системы AI.

Руководитель исследований искусственного интеллекта компании Meta* Ян Лекун отметил, что именно поэтому важно научить системы искусственного интеллекта понимать и разделять человеческие ценности, включая эмоции.

Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”