Последствия усложнения AI-моделей и другие нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю со 2 по 8 февраля.

Изменения в фильтрации данных

Anthropic и Stanford показали подход токенной фильтрации данных (token-level data filtering) на этапе предобучения, позволяющий избирательно ограничивать развитие отдельных способностей модели. На примере медицинских знаний они доказали, что такой подход работает лучше и точнее, чем удаление целых документов, сильно замедляет обучение нежелательной области и не портит другие навыки модели в смежных и общих темах. При этом эффективность растет с масштабом вычислений. При обучении моделей от 61M до 1,8B параметров фильтрация становится заметно мощнее.

Почему это важно: существующие способы защиты моделей — такие как RLHF — остаются уязвимыми: их сравнительно легко обойти с помощью джейлбрейков или дополнительного дообучения. Авторы же предлагают более фундаментальный подход — устранять риск на раннем этапе, фильтруя данные уже в процессе предварительного обучения модели.

Ошибки усложненных AI-систем

Anthropic вместе с EPFL исследуют природу ошибок, которые совершают AI-системы по мере усложнения задач и роста их «интеллекта». Исследователи пытаются выяснить, будут ли будущие сбои AI результатом систематического стремления к неправильным целям (рассогласованию) или же следствием хаотичного и непредсказуемого поведения, которое они называют состоянием «беспорядка» (hot mess).

Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии