Google представила VaultGemma — свою первую языковую модель, обученную таким образом, чтобы минимизировать риск утечек обучающих данных. Это открытый чекпойнт на 1 млрд параметров, доступный на Hugging Face и Kaggle.
VaultGemma прошла предобучение с применением дифференциальной приватности — подхода, который добавляет «шум» в процесс обучения. За счет этого ни одна отдельная последовательность текста не оказывает заметного влияния на итоговые веса модели. На практике это минимизирует вероятность того, что ИИ будет «выплевывать» фрагменты из обучающего корпуса, где могли оказаться личные или конфиденциальные сведения.
Пока что это экспериментальная модель на семействе Gemma 2, по качеству ответов находящаяся на уровне GPT-2. На данном этапе для Google важна приватность — в тестах VaultGemma не зафиксировано случаев явного воспроизведения обучающих данных.
VaultGemma — пример полноценной языковой модели, где защита данных встроена не «поверх» обучения, а в сам его фундамент. Когда разработчики подтянут производительность, подобные ИИ можно будет использовать для создания максимально безопасных ассистентов в сферах, где приватность критична — от финансовых сервисов до медицины.
P.S. Поддержать меня можно подпиской на канал «сбежавшая нейросеть», где я рассказываю про ИИ с творческой стороны.
Источник: habr.com