Российские ученые научились оценивать склонность ИИ соглашаться с пользователем

Исследователи из «Т-Технологий» разработали подход к оценке больших языковых моделей. Он позволяет измерить, насколько нейросеть склонна соглашаться с пользователем, даже когда тот не прав. Это важно для задач, где нужна строгая логика: решение математических примеров, проверка кода или анализ данных.

По словам руководителя Центра исследований и разработок «Т-Технологий» Станислава Моисеева, ученые предложили два теста. Первый оценивает, как меняется проверка решения в зависимости от позитивного или негативного контекста. Второй определяет, способна ли модель найти противоречие в условиях задачи и отказаться от ответа. Тесты провели на моделях Qwen, GPT, DeepSeek, Claude Sonnet и Gemini.

Выяснилось, что в 23−50% случаев нейросети склонны соглашаться с неверной позицией пользователя. Дополнительное обучение на предпочтениях часто не исправляет ситуацию, а даже ухудшает ее. Ученые предложили путь коррекции через модификацию структуры моделей. Это повысит надежность искусственного интеллекта в будущем.

Источник: www.ferra.ru

0 0 голоса

Рейтинг новости