ИИ научился проверять собственные ошибки

Учёные предложили новый способ обучать языковые модели без необходимости в заранее подготовленных правильных ответах. Метод получил название Compute as Teacher (CaT) и работает по принципу модель сама себе учитель.

Вместо того чтобы искать готовую истину в размеченных датасетах, алгоритм многократно решает одну и ту же задачу, формируя несколько вариантов ответа. Затем специальный механизм выбирает среди них наиболее обоснованный и превращает его в новую цель для обучения. Таким образом, модель постепенно учится рассуждать и улучшает собственные навыки без внешней подсказки.

CaT применяется в двух сценариях. В задачах, где правильность можно проверить автоматически — например, в математике, — система сама оценивает результат. А в более сложных областях, где нет однозначных решений, привлекается другая LLM, которая выступает «судьёй» и задаёт правила оценки.

Эффективность метода уже подтверждена экспериментально. На математическом бенчмарке MATH-500 точность выросла на 27%, а в медицинском тесте HealthBench — на 12%. В продвинутой версии CaT-RL результаты улучшились ещё больше — на 30–33%.

Главное преимущество подхода в том, что он уменьшает зависимость от огромных размеченных датасетов, которые дорого и долго готовить. Это делает обучение более универсальным и доступным, открывая дорогу к ИИ, который способен самостоятельно помогать себе становиться умнее.

Хотите быть в курсе важных новостей из мира ИИ? Подписывайтесь на наш Telegram‑канал BotHub AI News.

Источник

Источник: habr.com

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии