Учёные из T‑Bank AI Research разработали метод повышения безопасности и точности ответов ИИ до 15%

Учёные из лаборатории исследований искусственного интеллекта T‑Bank AI Research создали методику обучения больших языковых моделей (LLM). Метод основан на методах Trust Region. По словам учёных, результаты исследования помогают улучшить качество ответов ИИ до 15% по пяти показателям. Исследование представили на конференции по машинному обучению ICLR в Сингапуре. Конференция идёт с 24 по 28 апреля 2025 года.

Современные модели ИИ при долгом обучении теряют качество. Чтобы это исправить, исследователи использовали метод Trust Region. Они улучшили его для задач обучения языковых моделей.

В экспериментах учёные тестировали метод на метриках Alpaca Eval 2.0 и Arena Hard. Эти метрики оценивают, насколько вежливо и правильно ИИ отвечает на вопросы. Модели с новым методом давали правильные ответы чаще. На AlpacaEval 2.0 качество выросло с 2,3 до 15,1 процентных пункта.

Когда модель учится быть вежливой, она может начать выдавать только пустые вежливые фразы. Это называется избыточной оптимизацией. Чтобы этого избежать, учёные из T‑Bank AI Research предложили менять «настройки по умолчанию» во время обучения.

В методе Trust Region есть два способа обновления. При мягком обновлении настройки меняются понемногу на каждом шаге. При жёстком обновлении модель полностью обновляет настройки через определённый период.

Эксперименты показали, что метод помогает моделям отвечать понятнее и безопаснее. Например, при сокращении длинных текстов качество выросло на 10–15%. Модели лучше справляются со сложными задачами и точнее выполняют инструкции.

Метод можно использовать для создания виртуальных ассистентов, чат‑ботов и других ИИ‑продуктов. Это поможет делать их более понятными и полезными.

Руководитель научной группы AI Alignment в лаборатории исследований искусственного интеллекта T‑Bank AI Research, Борис Шапошников, рассказал, что новый подход позволяет сохранять баланс между решением узких задач и общим пониманием мира.

Метод размещён в открытой библиотеке Т-Банка Turbo Alignment.

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии