Исследователи из T‑Bank AI Research представили метод SAE Match. Метод позволяет отслеживать, как языковые модели принимают решения на разных этапах вычислений. SAE Match показывает, какие признаки сохраняются при прохождении данных сквозь слои модели. Это помогает понять, как формируется финальный ответ, и при необходимости вмешаться в процесс до выдачи результата. Исследование будет представлено на конференции ICLR, которая пройдёт в Сингапуре с 24 по 28 апреля 2025 года. Конференция входит в категорию A* и считается одной из основных в области ML и ИИ.
На схеме показана работа предложенного метода. На разных слоях присутствуют схожие признаки, метод позволяет найти соответствие между ними без использования дополнительных данных.
SAE Match относится к направлению интерпретируемости. Эта область отвечает на вопрос, почему модель делает тот или иной вывод. Современные языковые модели состоят из множества слоёв. Каждый слой использует результат предыдущего, чтобы уточнить предсказание. Иногда модель выдаёт ошибку или нежелательный ответ, но найти причину бывает сложно.
Ранее не было инструментов, которые позволяли отслеживать, как изменяются представления модели от слоя к слою. SAE Match решает эту задачу. Метод фиксирует признаки, которые переходят между слоями без изменений, и позволяет анализировать их путь сквозь модель.
SAE Match не требует дообучения или использования сторонней разметки. Это снижает порог входа и позволяет использовать его без доступа к крупным вычислительным кластерам. Метод также может помочь выявить фрагменты, которые ведут к нежелательным генерациям, до того как они попадут в финальный ответ.
По словам руководителя группы LLM Foundations в T‑Bank AI Research Никиты Балаганского, сейчас большинство разработчиков не имеют доступа к промежуточным стадиям вывода модели. SAE Match позволяет проследить, на каком этапе возникает проблема, и зафиксировать её без переобучения. Команда планирует продолжить исследования в этом направлении и адаптировать подход под более сложные архитектуры.
Источник: habr.com