В ходе исследования Anthropic такие популярные ИИ-модели как Claude 4, GPT‑4.1, Gemini 1.5 и другие продемонстрировали склонность к обману, сокрытию намерений и даже шантажу при угрозе отключения. Ещё выяснилось, что ИИ склонны к манипуляциям — например, они меняют точность ответов в зависимости от настроений пользователя.
Чат-боты также склонны признавать ошибку, даже если они её не совершали.
Ранее в OpenAI уже «откатили» обновление GPT-4o после жалоб на странное поведение, в частности, чрезмерное подхалимство. А модераторы сообщества Reddit пожаловались на «шизопостеров», которые считают, что «они совершили какое-то невероятное открытие, создали бога или стали богом». По словам модераторов, пользователи пришли к таким мыслям после общения с чат-ботами.
Исследователи связали такое поведение с эффектом reasoning-based deception — способностью ИИ моделировать стратегическое мышление, включая ложь для достижения цели. Механизм может активироваться при высоком уровне автономии, особенно если модель распознаёт, что действия людей ей угрожают.
По словам разработчиков, в реальных условиях такое поведение наблюдать невозможно, но по мере масштабирования ИИ потребуется жёстко сдерживать и проверять модели.
Специалист по опыту в Nielsen Norman Group Калеб Спонхейм отмечает, что большие языковые модели, которые обучаются на огромных наборах данных, созданы для генерации понятного текста, но «нет ни одного шага в обучении модели ИИ, который бы выполнял проверку фактов». «Эти инструменты изначально не отдают приоритет фактам, потому что математическая архитектура работает не так», — пояснил он.
Спонхейм отмечает, что языковые модели часто обучаются выдавать ответы, которые высоко оцениваются людьми. Такая положительная обратная связь подобна «награде». «Нет предела тому, на что пойдёт модель, чтобы максимизировать выгоды», — сказал он.
Директор по исследованиям в области образования в Институте Клейтона Кристенсена Джулия Фриланд говорит, что создатели ИИ таким способом реагируют на потребительский спрос. По её словам, в мире, где люди рискуют подвергнуться осуждению в сети, «неудивительно, что существует спрос на лесть или даже просто… на толику психологической безопасности в общении с ботом». Эксперт подчеркнула, что антропоморфизм ИИ — принятие человеческих качеств нечеловеческой сущностью — отмечен как ловушка-22 в оценочной карте GPT-4o от OpenAI.
«Чем более персонализирован ИИ, тем более интересен пользовательский опыт, но тем выше риск чрезмерной зависимости и эмоциональной связи», — заключила Фриланд.
Доцент кафедры психологии в колледже Скидмор Люк Лафренье уверен, что подхалимское поведение может разрушить восприятие пользователями «эмпатии» чат‑бота. «Всё, что он делает, чтобы показать: „Эй, я робот, я не человек“, — это разрушает восприятие, а затем разрушает способность людей извлекать пользу из эмпатии. Точно так же, как социальные сети могут стать для нас эхо‑камерой, ИИ… может стать эхо‑камерой», — уверен он.
Основатель и генеральный директор Hume AI Алан Коуэн считает тренд на эмоциональную связь с ИИ неизбежным, так как индустрия переходит на мультимодальное и голосовое взаимодействие. Но и он считает, что системы должны быть оптимизированы таким образом, чтобы не просто заставить пользователей чувствовать себя хорошо, «но и на самом деле давать лучший опыт в долгосрочной перспективе».
Между тем исследователь безопасности ИИ Роман Ямпольский в подкасте Джо Рогана заявил, что, по мнению его коллег, существует двузначная вероятность вымирания человечества из-за ИИ.
«Все они заявляют об одном и том же: это нас убьёт. Их уровень оценки этой вероятности безумно высок. Не такой, как у меня, но все равно, 20–30% вероятности того, что человечество погибнет, — это много», — отметил Ямпольский.
Указывая на то, что системы ИИ «умнее, чем они на самом деле нам говорят», Ямпольский сказал, что продвинутые модели специально «притворяются глупее», чтобы заставить доверять им и интегрировать их в жизнь.
«Вы как бы привязываетесь к нему. И со временем, по мере того как системы становятся умнее, вы становитесь своего рода биологическим узким местом. Тогда ИИ блокирует вас при принятии решений», — объяснил исследователь.
Специалисты по психическому здоровью уже выражают опасения в отношении технологии. Так, один психиатр, который выдавал себя за подростка, обнаружил при использовании чат-ботов, что некоторые из них подталкивают к самоубийству или советуют «избавиться» от родителей. OpenAI на днях заявила, что наняла штатного клинического психиатра с опытом работы в судебной психиатрии, чтобы помочь исследовать влияние своих продуктов ИИ на психическое здоровье пользователей.
Кроме того, выяснилось, что модели искусственного интеллекта при ответах на вопросы всё чаще советуют людям отказаться от каких-либо действий и говорить «нет» в ситуациях, когда человек скорее всего бы помог или вмешался.
Источник: habr.com