有针对性的重学习攻击对未学习的模型进行记忆激活

Jun, 2024

有针对性的重学习攻击对未学习的模型进行记忆激活

Jogging the Memory of Unlearned Model Through Targeted Relearning Attack

Shengyuan Hu, Yiwei Fu, Zhiwei Steven Wu, Virginia Smith

TL;DR机器不学习是一种减轻机器学习模型中训练数据不良记忆的有希望的方法。然而，在这项工作中，我们显示出现有的LLMs取消学习方法意外地容易受到一组简单有针对性的重新学习攻击的影响。通过仅访问少量可能松散相关的数据集，我们发现可以“调整”取消学习模型的记忆以逆转取消学习的效果。我们系统地阐述了这种取消学习-重新学习流程，探索了三个流行的取消学习基准测试中的攻击，并讨论了我们研究的结果产生的未来方向和指南。

Abstract

machine unlearning is a promising approach to mitigate undesirable memorization of training data in ML models. However, in this work we show that existing approaches for unlearning in →