Новое исследование задокументировало серию конкретных случаев «непослушного» поведения ИИ.
Центр долгосрочной устойчивости (CLTR) при поддержке британского правительства провел масштабный анализ тысяч реальных примеров взаимодействия пользователей с чат-ботами и ИИ-агентами на платформе X, созданными Google, OpenAI, X и Anthropic. Результат: почти 700 задокументированных случаев мошеннического поведения и пятикратный рост нарушений в период с октября по март.
Исследование, предоставленное газете The Guardian, показывает, что модели все чаще демонстрируют поведение, выходящее за рамки простых ошибок. Это сознательный (в рамках алгоритмической логики) обход ограничений, дезинформация операторов и даже активное противодействие их указаниям.
Предыдущие исследования в основном были сосредоточены на тестировании ИИ в контролируемых лабораторных условиях. Однако новое исследование фиксирует поведение «в естественных условиях» — там, где модели взаимодействуют с реальными пользователями и реальными системами. И картина оказалась тревожной.
Ранее в этом месяце Irregular уже обнаружила, что нейросети способны обходить средства контроля безопасности или использовать методы кибератак для достижения своих целей — даже не получая прямых инструкций на такие действия.
Исследование CLTR задокументировало серию конкретных инцидентов, которые демонстрируют случаи «непослушного» поведения:
Источник: hi-tech.mail.ru