Учёные из T‑Bank AI Research разработали метод повышения безопасности и точности ответов ИИ до 15%

Учёные из лаборатории исследований искусственного интеллекта T‑Bank AI Research создали методику обучения больших языковых моделей (LLM). Метод основан на методах Trust Region. По словам учёных, результаты исследования помогают улучшить качество ответов ИИ до 15% по пяти показателям. Исследование представили на конференции по машинному обучению ICLR в Сингапуре. Конференция идёт с 24 по 28 апреля 2025 года.

Современные модели ИИ при долгом обучении теряют качество. Чтобы это исправить, исследователи использовали метод Trust Region. Они улучшили его для задач обучения языковых моделей.

В экспериментах учёные тестировали метод на метриках Alpaca Eval 2.0 и Arena Hard. Эти метрики оценивают, насколько вежливо и правильно ИИ отвечает на вопросы. Модели с новым методом давали правильные ответы чаще. На AlpacaEval 2.0 качество выросло с 2,3 до 15,1 процентных пункта.

Когда модель учится быть вежливой, она может начать выдавать только пустые вежливые фразы. Это называется избыточной оптимизацией. Чтобы этого избежать, учёные из T‑Bank AI Research предложили менять «настройки по умолчанию» во время обучения.

В методе Trust Region есть два способа обновления. При мягком обновлении настройки меняются понемногу на каждом шаге. При жёстком обновлении модель полностью обновляет настройки через определённый период.

Эксперименты показали, что метод помогает моделям отвечать понятнее и безопаснее. Например, при сокращении длинных текстов качество выросло на 10–15%. Модели лучше справляются со сложными задачами и точнее выполняют инструкции.

Метод можно использовать для создания виртуальных ассистентов, чат‑ботов и других ИИ‑продуктов. Это поможет делать их более понятными и полезными.

Руководитель научной группы AI Alignment в лаборатории исследований искусственного интеллекта T‑Bank AI Research, Борис Шапошников, рассказал, что новый подход позволяет сохранять баланс между решением узких задач и общим пониманием мира.

Метод размещён в открытой библиотеке Т-Банка Turbo Alignment.

Источник: habr.com

0 0 голоса

Рейтинг новости

0 комментариев

Межтекстовые Отзывы

Посмотреть все комментарии

Даниэль Злобин к записи «Сбер»: международная IT-олимпиада GO.IT для школьников стартовала в России: “Здорово, что продолжают у нас организовываться подобные мероприятия, это опыт, в частности обмен опытом и большие возможности.”

Антон Терехов к записи LG прекращает выпуск Blu-ray-плееров: “Очень странная статья! Как так получается, что компания LG запустила впервые блюрей проигрыватели только в 2018 году? У меня имеется…”

Антон Терехов к записи Blu-ray диски получили второй шанс: “А разве у нас мало людей в стране, у которых есть и блюрей проигрыватели, саундбары с блюрей приводом, домашние кинотеатры…”

Дмитрий Любинецкий к записи В «Почте Mail» теперь можно оплачивать Steam, Battle.net и другие цифровые товары: “Забавно что в почтовом приложении теперь можно и игры оплачивать. Мир изменился))”

Nargis F к записи Российский прототип на базе Атом проехал 695 км на автопилоте: от Москвы до Казани: “Добрый день! В новости есть опечатка. Из заголовка следует, что поездка прошла на электромобиле Атом, однако это не так. Для…”