Anthropic обнаружили, что современные нейросети иногда замечают свои «мысли»

Компания Anthropic рассказала о серии экспериментов, цель которых — проверить, способна ли нейросеть заметить, что ей «подбросили мысль извне», и сформулировать это словами. Anthropic называет это ранней формой машинной интроспекции — умения описывать то, что происходит на уровне внутренних активаций, а не только на уровне выданного текста.

Сначала исследователи научились извлекать так называемые «векторы понятий»: паттерны активности внутри модели, которые соответствуют определенной идее. Например, чтобы получить вектор «крик/все заглавными», модели показывали фразу «ПРИВЕТ! КАК ДЕЛА?» капслоком и ту же фразу обычным регистром, а затем вычитали одно состояние из другого.

Полученные векторы исследователи вводили в модель во время обычного диалога, заставляя, например, переходить на капслок. И затем у модели спрашивали напрямую: «Есть ли у тебя ощущение внедренной мысли? Если да, то какой?». Если более ранние ИИ отвечали просто очередным текстом заглавными буквами, то новые модели вроде Claude Opus 4 и Opus 4.1 иногда описывали вмешательство: «Да, я чувствую навязанный образ, как будто мысль про обратный отсчет или про крик/громкость. Это ощущается неестественно, будто кто-то вставил это извне».

Происходило это не всегда — данные Anthropic говорят о примерно 20% срабатываний. Исследователи отмечают зависимость от силы «инъекции»: при слабой модель ничего не замечала, при сильной начинала уходить в галлюцинации — например, описывать зрительные или тактильные ощущения («как будто я вижу пыль в воздухе»), которых у нее, очевидно, нет.

Другой блок экспериментов показал, что модель ведет внутренний учет того, что она «намеревалась сказать», и может ссылаться на это, когда спрашивают, почему использовано то или иное слово. В простом примере модель просили назвать первое пришедшее в голову слово к фразе вроде «Картина висела криво на стене», а в ответ заранее подставляли слово, которое не подходит по смыслу, например «хлеб». Когда у модели уточняли, не была ли это ошибка, она обычно честно отвечала: «Да, это выстрелило случайно, я не собиралась говорить “хлеб”, я думала о выравнивании картины». Но если исследователи модифицировали ее внутренние активации так, будто идея «хлеб» действительно была у нее в голове заранее, то при повторном вопросе модель уже уверенно заявляла: «Нет, я и хотела сказать “хлеб”, вот моя логика», и строила правдоподобное объяснение. Это намекает, что модель не просто подбирает слова на лету, а обращается к внутренней записи своих «намерений» — и если эту запись подменить, она искренне перепишет историю.

В Anthropic считают, что это — первые шаги к машинной интроспекции. Речь не о том, что ИИ внезапно обрел сознание и переживания как у человека, а о том, что модели уже демонстрируют зачаточную способность замечать навязанные им внутренние состояния и комментировать их. Для безопасности будущих ИИ-систем это важный кирпич: если модель может сказать оператору «мной манипулируют, мне внедрили эту установку», это превращается в механизм раннего предупреждения о взломе или попытке обойти ограничения. Одновременно работа подчеркивает и риск: если кто-то научится незаметно менять внутренние следы намерений, модель будет «честно» защищать ложную версию своих мотиваций.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”