Судя по всему, умные алгоритмы пока не умеют дотошно копаться в научных статьях, чтобы найти правильные ответы на вопросы. Точность в таких делах не выше 50%.
Искусственный интеллект отлично показывает себя в кодировании, написании текстов и обработке больших массивов данных, но явно уступает людям в других аспектах. К примеру, исторических познаниях. К такому заявлению пришла группа ученых, которая решила проверить три ведущие ИИ-модели в соответствии с гигантской базой знаний Seshat Global History Databank. В качестве подопытных взяли: GPT-4 от OpenAI, Llama от Meta* и Gemini от Google.
Согласно полученным результатам, максимальная точность ответов составила всего 46%, что ненамного выше, чем у случайного угадывания. При этом вопросы были довольно конкретными, вроде «существовали ли чешуйчатые доспехи в определенный период времени в Древнем Египте». В данном случае модель GPT-4 Turbo не просто ошиблась, а промахнулась на 1500 лет.
Главный вопрос — почему большие ИИ-модели плохо отвечают на исторические вопросы, но хорошо справляются с тем же кодированием? По мнению ученых, это может быть связано с размытостью информации. Научные работы часто перетекают из одной темы в другую, что просто не дает искусственному интеллекту быстро найти конкретный факт. Грубо говоря, в сети просто нет прямого ответа про чешуйчатые доспехи в Древнем Египте, вот алгоритм и путается.
Источник: hi-tech.mail.ru