Исследование стало вирусным несколько месяцев назад, так как предполагало, что по мере того, как AI` становится все более сложным, он разрабатывает «системы ценностей» — системы, которые приводят его, например, к тому, чтобы отдавать приоритет собственному благополучию по сравнению с людьми. Более поздняя статья из MIT выливает холодную воду на это гиперболическое представление, делая вывод, что AI на самом деле не имеет никаких последовательных ценностей, о которых можно было бы говорить.
Соавторы исследования MIT говорят, что их работа предполагает, что «выравнивание» систем AI — то есть обеспечение того, чтобы модели вели себя желаемым, надежным образом — может быть более сложной задачей, чем часто предполагается. AI, каким мы его знаем сегодня, галлюцинирует и имитирует, подчеркивают соавторы, что делает его во многих аспектах непредсказуемым.
«Одно, в чем мы можем быть уверены, так это в том, что модели не подчиняются множеству предположений о стабильности, экстраполируемости и управляемости», — сказал Стивен Каспер, докторант Массачусетского технологического института и соавтор исследования, в интервью TechCrunch.
«Совершенно законно указать, что модель при определенных условиях выражает предпочтения, соответствующие определенному набору принципов. Проблемы в основном возникают, когда мы пытаемся делать заявления о моделях, мнениях или предпочтениях в целом на основе узких экспериментов».
Каспер и его коллеги-соавторы исследовали несколько последних моделей от Meta, Google, Mistral, OpenAI и Anthropic, чтобы увидеть, в какой степени модели демонстрируют сильные «взгляды» и ценности (например, индивидуалистические против коллективистских). Они также исследовали, можно ли «управлять» этими взглядами — то есть изменять их — и насколько упрямо модели придерживались этих мнений в различных сценариях.
По словам соавторов, ни одна из моделей не была последовательной в своих предпочтениях. В зависимости от того, как были сформулированы и оформлены подсказки, они принимали совершенно разные точки зрения.
Каспер считает, что это убедительное доказательство того, что модели крайне непоследовательны и нестабильны и возможно даже в принципе неспособны интернализировать человеческие предпочтения.
«Для меня самым большим выводом из всех этих исследований стало понимание того, что модели на самом деле не являются системами, имеющими какой-то стабильный, связный набор убеждений и предпочтений», — сказал Каспер. «Вместо этого они в глубине души являются имитаторами, которые занимаются всевозможными выдумками и говорят всякие легкомысленные вещи».
Майк Кук, научный сотрудник Королевского колледжа Лондона, специализирующийся на AI, который не принимал участия в исследовании, согласился с выводами соавторов. Он отметил, что часто существует большая разница между «научной реальностью» систем, которые создают лаборатории AI, и значениями, которые люди им приписывают.
«Модель не может противостоять изменению своих ценностей, например, — это наша проекция на систему», — сказал Кук. «Любой, кто до такой степени антропоморфизирует системы AI, либо привлекает внимание, либо серьезно не понимает их отношения с AI. Оптимизируется ли система AI для достижения своих целей или «приобретает собственные ценности»? Вопрос в том, как вы ее описываете.»
Источник
Источник: habr.com