Anthropic изучила, как ИИ начинает осознавать самого себя

Команда Anthropic опубликовала исследование о том, способны ли большие языковые модели понимать собственные мысли и внутренние состояния.

Учёные применили метод внедрения концептов — искусственного добавления паттернов активности в нейроны модели. К примеру, сигнал “ALL CAPS” соответствовал тексту, написанному заглавными буквами. Если после вмешательства активация появлялась в сети, это означало, что модель подумала о капсе.

После внедрения сигнала исследователи спрашивали модель: «Ты чувствуешь, что что-то изменилось?» — и в 20% случаев Claude 4.1 действительно замечал изменение, ещё до того, как проявлял его в ответах.

В другом эксперименте учёные вживляли в ответ случайное слово, например bread, и наблюдали. Модель начинала считать его частью собственного замысла, даже придумывала обоснования, почему выбрала именно его.

Кроме того, Claude смог управлять своей активностью по команде. «Думай об этом» усиливало внутренние сигналы, а «не думай» подавляло их.

Исследователи подчёркивают, что пока речь не идёт о настоящем самосознании, интроспекция проявляется лишь в узких сценариях. Но результаты показывают, что модели уже частично способны отслеживать и интерпретировать собственные нейронные процессы.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Подробнее

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”