Архитектура чат-ботов столкнулась с фундаментальными ограничениями

Исследователи выяснили, что у больших языковых моделей (LLM) существуют фундаментальные ограничения в решении задач, требующих сложного и многоступенчатого рассуждения (compositional reasoning).

Они приводят в пример логическую головоломку Эйнштейна, которая требует составления общего решения из решений подзадач. Также известная как головоломка о зебре, она была впервые опубликована в журнале Life в декабре 1962 года. 

Вот как она выглядит:

На улице стоят пять домов.

Англичанин живёт в красном доме.

У испанца есть собака.

В зелёном доме пьют кофе.

Украинец пьёт чай.

Зелёный дом стоит сразу справа от белого дома.

Тот, кто курит Old Gold, разводит улиток.

В жёлтом доме курят Kool.

В центральном доме пьют молоко.

Норвежец живёт в первом доме.

Сосед того, кто курит Chesterfield, держит лису.

В доме по соседству с тем, в котором держат лошадь, курят Kool.

Тот, кто курит Lucky Strike, пьёт апельсиновый сок.

Японец курит Parliament.

Норвежец живёт рядом с синим домом.

Кто пьёт воду? Кто держит зебру?

Отметим, что каждый из пяти домов окрашен в свой цвет, а их жители — разных национальностей, владеют разными животными, пьют разные напитки и курят разные марки американских сигарет. В утверждении 6 справа означает справа относительно читателя.

В своём самом сложном варианте задача предполагает решение в уме, без использования каких-либо записей или средств сохранения информации. 

Исследователи обнаружили, что LLM, обученные предсказывать следующее слово в последовательности, ограничены в решении таких задач. Также авторы статьи заметили, что архитектура Transformer, используемая в большинстве LLM, имеет математические ограничения в решении сложных задач.

Обнаружение этих ограничений стало возможным благодаря широким возможностям самих LLM в обработке естественного языка. Поскольку модели оперируют огромными объёмами данных из Интернета, они успешно выполняют сложные задачи, такие как суммирование документов и генерация кода, но могут терпеть и неудачи.

Например:

стандартные LLM плохо справляются с базовым умножением больших чисел. Например, GPT-4 правильно умножает два трёхзначных числа только в 59% случаев, а два четырёхзначных — всего в 4%;

в головоломке Эйнштейна GPT-4 справляется с задачей только при небольшом количестве домов и атрибутов. При увеличении сложности точность её ответов падает до нуля;

дообучение LLM на большом количестве примеров умножения улучшает результаты, но только для задач, похожих на те, что уже встречались  в тренировочных данных.

Также исследователи выяснили, что LLM галлюцинируют в математических задачах из-за недостаточной способности к многоступенчатым рассуждениям. Они показали математическое ограничение для LLM с одним слоем Transformer: если общее количество параметров меньше размера домена, то модель не может решить задачу композиции. Даже многослойные модели Transformer имеют такие ограничения. Увеличение размера модели позволяет ей решать более сложные задачи, но, если сложность задач растёт одновременно с размером LLM, то она может выдавать неверные результаты.

Несмотря на ограничения, исследователи разрабатывают способы их преодоления. Так, встраивание в Transformer большего объёма математических данных потенциально позволит улучшить арифметические способности моделей. При этом использование техники chain-of-thought prompting, когда в запросе предоставляется пошаговое решение проблемы, поможет моделям разбивать сложные задачи на более мелкие.

Исследователи делают вывод, что LLM в основном сопоставляют уже знакомые закономерности, и их способности ограничены математически. Предложенные же обходные пути просто расширяют их способность сопоставлять более сложные закономерности. При том, что для большинства пользователей эти ограничения не имеют значения, для разработчиков моделей важно понимать проблематику LLM, чтобы расширять возможности их работы.

А в этой статье можно прочитать о том, почему у LLM возникают галлюцинации и какими они бывают.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии