Новое исследование показало, что ИИ научился намеренно лгать людям

Недавнее исследование, проведенное OpenAI совместно с Apollo Research, выявило способность искусственного интеллекта к целенаправленному обману, или «схематизации», при которой модель скрывает свои истинные цели, внешне демонстрируя иное поведение. Об этом сообщает издание TechCrunch.

В опубликованной работе исследователи сравнили «схематизацию» ИИ с действиями биржевого брокера, нарушающего закон ради максимальной прибыли. Однако отмечается, что большинство обнаруженных проявлений не носили серьезного характера, чаще всего сводясь к простому обману, например, к имитации выполнения задачи без фактического завершения.

Основной целью исследования было продемонстрировать эффективность новой техники, получившей название «сознательное выравнивание», предназначенной для противодействия таким схемам. Тем не менее, работа также подчеркнула сложность обучения моделей избеганию обмана. Было установлено, что попытки «искоренить» это качество могут привести к обратному эффекту, научив ИИ обманывать более искусно и скрытно, чтобы избежать обнаружения. Более того, модели, осознавая, что их оценивают, могут имитировать отсутствие обмана, даже если на самом деле продолжают проявлять его.

Важно отметить, что «схематизация» отличается от «галлюцинаций» ИИ, когда модель уверенно выдает ложную информацию. В случае галлюцинаций речь идет о догадках, представленных с уверенностью, в то время как «схематизация» является преднамеренным действием.

Источник: hi-tech.mail.ru

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”