MIT взломал «мозг» LLM: модели научились рассуждать как люди

MIT представил исследование, которое может изменить наше понимание того, как обучаются большие языковые модели. Учёные доказали, что если правильно подать материал, то LLM способны к логическим рассуждениям, а не только к генерации текста по шаблону.

Подход PDDL-INSTRUCT состоит из трех фаз: двух фаз обучения (начальной и обучения инструкциям с цепочкой рассуждений) и фазы оценки. Основное новшество заключается во второй фазе: обучении инструкциям с цепочкой рассуждений (выделено красной рамкой). Изначально настроенная большая языковая модель (LLM) дополнительно обучается с использованием структурированного процесса инструкций, который подчеркивает полные логические цепочки рассуждений.

Для этого они предложили новый метод обучения — PDDL-INSTRUCT. Его суть в том, что модель больше не угадывает правильный ответ, а учится пошагово решать задачи с внешней проверкой.

Как это работает: 1) Сначала модели показывают правильные и неправильные планы действий с пояснениями. 2) Затем она сама строит рассуждения шаг за шагом. 3) Полученные рассуждения проверяет внешний инструмент (VAL), который указывает, где ошибка и почему. Таким образом, модель получает чёткую обратную связь, а не формальное «правильно/неправильно».

Результаты впечатляют. У Llama-3-8B точность выполнения задач планирования выросла с 28% до 94%. Такой скачок объясняется именно качеством обратной связи: модель не просто копирует паттерны, а учится логике, фактически осваивая роль символического планировщика.

Важно, что LLM в этой схеме не заменяет классические системы, а работает в тандеме с ними — сохраняя внешнюю проверку и при этом перенимая навыки пошагового мышления.

Главная интрига: если метод масштабировать, то можно раскрыть скрытые способности моделей в самых разных областях — от сложной математики и программирования до планирования процессов в бизнесе. Получается, что многие ограничения LLM связаны не с их природой, а с тем, как их обучают.

Делегируйте часть рутинных задач вместе с BotHub! Для доступа к сервису не требуется VPN и можно использовать российскую карту. По ссылке вы можете получить 100 000 бесплатных токенов для первых задач и приступить к работе с нейросетями прямо сейчас!

Источник

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”