Feb, 2024

鲁棒性一致的对抗训练用于安全机器学习模型更新

TL;DR我们展示了机器学习模型的周期性更新可能导致负面翻转,进而影响模型的安全性和性能,为此我们提出了 robustness-congruent adversarial training 方法用于解决这个问题。实验证明,我们的方法可以有效降低负面翻转问题,提高模型的准确性和鲁棒性。