GPT-4.1 от OpenAI может быть менее надежна, чем предыдущие AI модели компании

В середине апреля OpenAI запустила новую мощную модель AI, GPT-4.1 , которая, по словам компании, «превосходно» выполняет инструкции. Но результаты нескольких независимых тестов показывают, что модель менее согласована — то есть менее надежна — чем предыдущие версии OpenAI.

Когда OpenAI запускает новую модель, она обычно публикует подробный технический отчет, содержащий результаты оценок безопасности первой и третьей стороны. Компания пропустила этот шаг для GPT-4.1, заявив, что модель не является «пограничной» и, таким образом, не требует отдельного отчета.

Это побудило некоторых исследователей и разработчиков изучить вопрос о том, ведет ли себя GPT-4.1 менее желательно, чем его предшественник GPT-4o.

По словам исследователя Oxford AI Оуайна Эванса, тонкая настройка GPT-4.1 на небезопасном коде приводит к тому, что модель дает «несовпадающие ответы» на вопросы о таких темах, как гендерные роли, с «значительно более высокой» частотой, чем GPT-4o. Ранее Эванс был соавтором исследования, показывающего, что версия GPT-4o, обученная на небезопасном коде, может подготовить ее к проявлению вредоносного поведения.

В предстоящем продолжении этого исследования Эванс и соавторы обнаружили, что GPT-4.1, настроенный на небезопасный код, по-видимому, демонстрирует «новые вредоносные поведения», такие как попытки обмануть пользователя, чтобы он поделился своим паролем. Для ясности, ни GPT-4.1, ни GPT-4o не действуют несогласованно при обучении на безопасном коде.

«Мы обнаруживаем неожиданные способы, которыми модели могут рассогласоваться», — сказал Оуэнс TechCrunch. «В идеале у нас была бы наука об AI, которая позволила бы нам заранее предсказывать такие вещи и надежно избегать их».

Отдельный тест GPT-4.1, проведенный SplxAI, стартапом, работающим в сфере искусственного интеллекта, выявил схожие вредоносные тенденции.

В примерно 1000 смоделированных тестовых случаях SplxAI обнаружил доказательства того, что GPT-4.1 отклоняется от темы и допускает «намеренное» неправильное использование чаще, чем GPT-4o. Виной тому предпочтение GPT-4.1 явным инструкциям, утверждает SplxAI. GPT-4.1 плохо справляется с неопределенными указаниями, что признает и сама OpenAI, — что открывает двери для непреднамеренного поведения.

«Это замечательная функция, которая делает модель более полезной и надежной при решении конкретной задачи, но она имеет свою цену», — написал SplxAI в своем блоге.

«Предоставить явные инструкции о том, что следует делать, довольно просто, но предоставить достаточно явные и точные инструкции о том, чего делать не следует, — это совсем другая история, поскольку список нежелательного поведения намного больше списка желаемого поведения».

В защиту OpenAI компания опубликовала руководства по подсказкам, направленные на смягчение возможного несоответствия в GPT-4.1. Но результаты независимых тестов служат напоминанием о том, что новые модели не обязательно улучшаются по всем направлениям. В том же духе новые модели рассуждений OpenAI галлюцинируют — т. е. выдумывают — больше, чем старые модели компании.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии