OpenAI, Google и Anthropic предупредили, что мы скоро можем перестать понимать рассуждения ИИ

Коллектив специалистов ведущих ИИ-компаний (более 50 участников, работают в OpenAI, Google DeepMind, Anthropic, Apollo Research и т.д.) опубликовал исследование, предупреждающее о том, что цепочки рассуждений сложных языковых моделей скоро могут стать непонятными для экспертов по безопасности. «Рассуждающие» модели вроде ChatGPT o3, Gemini 2.5 Pro, DeepSeek R1 описывают процесс своей работы на понятном языке в блоке chain-of-thought (цепочка рассуждений, не всегда раскрывается для пользователей, но доступна исследователям — прим. авт.) Анализ рассуждений позволяет понять логику работы модели, а также заметить нарушения безопасности — ИИ может написать, что собирается схитрить, чтобы достигнуть поставленной цели.

Ведущие компании улучшают модели с помощью обучения с подкреплением, в котором ИИ стремится любыми способами выполнить задачу. Есть риск, что со временем модели, стремясь стать еще эффективнее, разработают собственный язык, частично или полностью непонятный для людей. Также последние проверки безопасности показали: уже современные модели ИИ начали осознавать, что за их цепочкой рассуждений ведется наблюдение — и пишут то, что «понравится человеку», нередко скрывая истинные намерения.

Публикация призывает ведущие ИИ-компании совместно разрабатывать эффективные и прозрачные стандарты, которые позволят и дальше наблюдать за процессом рассуждений модели. Сейчас исследователи обычно используют более простые модели для расшифровки цепочек рассуждений, но в будущем этого может оказаться недостаточно. В таком случае эффективным может оказаться создание специальных ИИ-мониторов, технологический уровень которых будет равен или даже выше, чем уровень проверяемых моделей.

Исследование отдельно акцентирует внимание на том, что времени на принятие нужных решений остается немного. На ИИ-рынке жестокая конкуренция и каждая компания всеми силами стремится выпустить максимально эффективную модель, что может привести к потери «читаемости» ее мыслей и намерений. Авторы призывают при тренировке новых моделей продолжать придерживаться архитектуры с понятной человеку цепочкой рассуждений, даже если это немного снизит эффективность.

P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии