На сайте OpenAI опубликована научная работа, посвященная причинам галлюцинаций больших языковых моделей и предлагаемым способам борьбы с ними. Исследователи компании отмечают, что обучение начинается с больших корпусов текстов, в которых нет меток «правда» или «ложь» — только примеры, как пишут люди. Из этих данных ИИ может усвоить регулярности вроде грамотного письма и расстановки знаков препинания, но не редкие факты. Например, если показать модели миллион фотографий собак и кошек, помеченных как «собака» и «кошка», то она поймет, как различать эти два вида животных. Если же показать миллион фото кошек с указанием даты рождения каждой, то модель не научится указывать дату рождения, так как здесь нет закономерности — и вместо этого будет уверенно пытаться просто ее угадать.
Постобучение сокращает количество галлюцинаций, но не убирает их полностью из-за того, что сейчас специалисты используют не до конца правильный подход. Дело в том, что при оценке моделей сейчас поощряется только точность — то есть, сколько ответов совпало с правильным. Такая методика на самом деле поощряет галлюцинации, так как при них остается небольшой шанс, что модель угадает правильный ответ. А вот если ИИ напишет «я не знаю» — то награда всегда будет нулевой. Это хорошо видно по таблице ниже:
Несмотря на то, что у GPT-5-Thinking-mini значительно меньший процент ошибок, по точности она немного уступает более старой o4-mini — и, соответственно, оказывается позади в тестах, которые измеряют только точность.
В OpenAI предлагают доработать правила оценки моделей таким образом, чтобы давать повышенный штраф за уверенные ошибки, а за неопределенность (я не знаю) при ответе — наоборот, начислять частичные баллы. В компании отмечают, что смогли значительно сократить количество галлюцинаций в GPT-5, но модель все еще не идеальна.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com