В то время как искусственный интеллект, в частности большие языковые модели (LLM), совершают революцию в различных областях, традиционные концепции кибербезопасности приобретают новый, вызывающий опасения вид.
Одна из концепций, которую эксперт по безопасности, автор статьи на HackerNoon, считает особенно тревожной, — это «источники и поглотители».
Что такое источники и поглотители? В традиционной кибербезопасности «источники и поглотители» означают происхождение и назначение данных в приложении. Данные поступают из источника (пользовательский ввод, базы данных и т. д.) и обрабатываются, прежде чем попасть в поглотитель (базу данных, электронную почту и т. д.). Специалисты по безопасности используют «отслеживание порчи» для идентификации этого потока данных, что является сложной задачей для больших приложений, но выполнимой благодаря их детерминированному характеру (то есть определенные входы всегда приводят к определенным выходам).
LLM существенно отличаются. Они намеренно недетерминированы, имитируя человеческие мыслительные процессы, что вносит случайность в их выходные данные. Это делает практически невозможным предсказать, что LLM будет делать с данными, особенно при выборе инструментов или места назначения данных.
Проблема усугубляется огромным количеством потенциальных источников и поглотителей в будущих системах ИИ, призванных заменить людей. Например, офисные работники получают доступ к огромным объемам информации и манипулируют ими.
Несмотря на известные риски, многие разработчики игнорируют «источники и поглотители» из-за таких факторов, как архитектура микросервисов и разделение ответственности. Это может привести к тому, что разработчики, работающие с крупномасштабным недетерминированным ИИ, получают неограниченный доступ к интернету, конфиденциальным данным и различным инструментам.
Давление, связанное с необходимостью быстрого внедрения сложных технологий, еще больше усугубляет проблему. Автор призывает вновь обратить внимание на «источники и поглотители» в условиях нынешнего бума ИИ. В то время как все в восторге от потенциала LLM, важнейшие процессы строятся на основе «пробных» реализаций, которые могут быстро усложниться.
Время моделировать потоки данных настало, пока кому-то (возможно, злоумышленнику) не пришлось их реинжинирировать.
Источник: www.ferra.ru