Исследование: ИИ сложнее подделать токсичное поведение, чем интеллект

Большие языковые модели (БЯМ) легко отличить от людей при общении в социальных сетях, поскольку наиболее явным признаком служит чрезмерно дружелюбный тон. Учёные из нескольких университетов протестировали девять моделей с открытым доступом на платформах X, Bluesky и Reddit. Созданные исследователями классификаторы смогли выявлять ответы, сгенерированные искусственным интеллектом, с точностью от 70 до 80%.

В своей работе научная группа представила «вычислительный тест Тьюринга» для оценки того, насколько ИИ-модели соответствуют человеческому языку. Вместо того чтобы полагаться на субъективное человеческое суждение о том, звучит ли текст аутентично, фреймворк использует автоматизированные классификаторы и лингвистический анализ для выявления специфических особенностей, отличающих сгенерированный контент от созданного человеком.

Даже после калибровки результаты БЯМ остаются чёт��о отличимыми от текста, написанного человеком. Особенно по эмоциональному тону и выражению чувств, пишут исследователи. Группа под руководством Николо Пагана из Цюрихского университета протестировала различные стратегии оптимизации: от простых подсказок до тонкой настройки. Более глубокие эмоциональные сигналы сохраняются как надёжные признаки того, что конкретное текстовое взаимодействие в интернете было инициировано ИИ, а не человеком, пояснили учёные.

В исследовании протестировали девять БЯМ: Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B и Apertus-8B-2509.

Когда моделей попросили сгенерировать ответы на посты в соцсетях от реальных пользователей, им было трудно соответствовать уровню неформального негатива и спонтанного выражения эмоций, характерных для публикаций людей. Показатели токсичности БЯМ неизменно оказывались ниже, чем у подлинных человеческих ответов на всех трёх платформах.

Чтобы компенсировать этот недостаток, исследователи попытались применить стратегии оптимизации, которые уменьшили структурные различия, но не эмоциональные. Комплексные калибровочные тесты ставят под сомнение предположение о том, что более сложная оптимизация обязательно приводит к более очеловеченному результату, пояснили исследователи.

Модели, настроенные на выполнение инструкций или прошедшие дополнительное обучение для выполнения инструкций пользователя, на самом деле хуже имитируют поведение человека, чем их базовые аналоги. Llama 3.1 8B и Mistral 7B v0.1 демонстрировали лучшую имитацию поведения человека без настройки инструкций, обеспечивая точность классификации от 75 до 85%.

Масштабирование БЯМ не дало никаких преимуществ. Llama 3.1 с 70 млрд параметрами показала результаты на уровне или ниже, чем модели с 8 млрд параметров.

Предоставление реальных примеров прошлых публикаций пользователя или извлечение соответствующего контекста неизменно затрудняли различение текста ИИ от человеческого. Сложные подходы, такие как предоставление модели описания личности пользователя и тонкая настройка, оказывали незначительное или даже отрицательное влияние на реалистичность.

Нейросети лучше всего имитировали пользователей X, а хуже всего — Reddit.

Препринт научной работы «Computational Turing Test Reveals Systematic Differences Between Human and AI Language» опубликован 06 ноября 2025 года на сайте arXiv (DOI: 10.48550/arXiv.2511.04195).

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии