Устойчивость поведения LLM. Нейроновости недели

Аналитический центр red_mad_robot рассказывает и комментирует главные новости индустрии за неделю с 19 по 25 января.

Новый метод в Sakana AI

Sakana AI представила RePo (Context Re-Positioning): метод, который позволяет LLM динамически перераспределять контекст по значимости. Вместо линейного чтения текста модель переупорядочивает фрагменты: она опирается не на исходный порядок токенов, а на их вклад в решение задачи, подтягивая важное и отодвигая шум. По сути, LLM заново расставляет позиции токенов по смыслу, как человек, который мысленно возвращается к важному месту в тексте.

Почему это важно: RePo заметно улучшает работу модели в сложных случаях: с длинным контекстом, большим количеством шума, разбросанными по тексту фактами и структурированными данными вроде таблиц и списков. При этом устойчивость растет, а общее качество не деградирует.

Изменения поведения модели

Anthropic обнаружила и описала «ось ассистента» (Assistant Axis): направление во внутреннем пространстве модели, определяющее ее роль и стиль ответов. Смещение вдоль этой оси приводит к смене поведения: от стабильного и профессионального помощника к более странными и нестабильным состояниям. Более того, положение на оси также коррелирует с уязвимостью к jailbreak-атакам.

Исследование показывает, что «личность» ассистента формируется еще на этапе предобучения и не является жестко зафиксированной. В длинных, особенно эмоциональных или философских диалогах, модель может постепенно смещаться по оси — фактически дрейфовать в своем поведении.

Источник: hi-tech.mail.ru

0 0 голоса
Рейтинг новости
1
0
Подписаться
Уведомить о
0 комментариев
Межтекстовые Отзывы
Посмотреть все комментарии