难以忘怀:基于认证机器遗忘的毒化攻击
我们重新审视了用于大规模深度学习的几种近似机器遗忘方法的功效。虽然现有的遗忘方法在一些评估设置下表现出了有效性,但我们实验证明它们无法消除数据污染的影响,在各种类型的污染攻击和模型中都表现出失败的情况。我们引入了基于数据污染的遗忘评估指标,结果表明需要更广泛的视角来避免对没有可证保证的深度学习机器遗忘程序产生虚假的自信。此外,我们的工作表明尽管遗忘方法在有效消除毒害数据点方面显示出一些迹象且无需重新训练,但目前这些方法还不是 “时机已到”,并且相对于重新训练而言带来的好处有限。
Jun, 2024
在当前人工智能时代中,用户可能要求 AI 公司从训练数据集中删除他们的数据以保护隐私。作为模型所有者,重新训练模型将消耗大量计算资源。因此,机器遗忘是一种新兴的技术,允许模型所有者删除请求的训练数据或一个类别,对模型性能影响较小。然而,对于大规模复杂的数据,如图像或文本数据,从模型中删除一个类别会导致性能下降,因为很难确定类别和模型之间的联系。本文中,为了准确定义复杂数据的遗忘类别,我们应用概念的定义来代表遗忘类别的语义信息,而不是图像特征或文本数据的标记。这种新的表示可以切断模型和类别之间的联系,从而完全消除一个类别的影响。为了分析复杂数据概念的影响,我们采用后验概念瓶颈模型和综合梯度来精确识别不同类别之间的概念。接下来,我们利用带有随机和有针对性标签的数据毒化提出了遗忘方法。我们在图像分类模型和大型语言模型上测试了我们的方法,结果一致表明提出的方法可以准确地从模型中擦除目标信息,并且可以在很大程度上保持模型的性能。
May, 2024
在机器重学习等场景中,我们介绍伪装数据污染攻击,一种新的攻击方式,其步骤包括添加一些精心构造的点到训练数据集中,并在之后的请求中删除其中的一部分,从而导致模型的预测产生负面影响,我们考虑的是在包括 CIFAR-10、Imagenette 和 Imagewoof 数据集中加入洁净标签有针对性的攻击并使用伪装数据点来实现此攻击。
Dec, 2022
通过引入新的抗干扰方法和寻找适合的超参数来解决恶意攻击和毒数据从已训练模型中删除的问题,我们的方法在 CIFAR10 和 CIFAR100 数据集上检验后,毒数据去除效果显著,修复了 93.72% 的毒样本,相较于全模型重新训练方法(40.68%)和 Selective Synaptic Dampening 方法(83.41%),我们的方法降低了模型准确率丧失的程度。
Jun, 2024
机器遗忘是一项关键技术,用于选择性地移除训练数据点对训练模型的影响。本文提供了机器遗忘研究的全面分类和分析,并回顾了最新的解决方案,讨论了其优势和限制,并提出了未来的发展方向,以推动机器遗忘作为一项必要的可信和自适应机器学习能力。
Aug, 2023
机器不学习是一种减轻机器学习模型中训练数据不良记忆的有希望的方法。然而,在这项工作中,我们显示出现有的 LLMs 取消学习方法意外地容易受到一组简单有针对性的重新学习攻击的影响。通过仅访问少量可能松散相关的数据集,我们发现可以 “调整” 取消学习模型的记忆以逆转取消学习的效果。我们系统地阐述了这种取消学习 - 重新学习流程,探索了三个流行的取消学习基准测试中的攻击,并讨论了我们研究的结果产生的未来方向和指南。
Jun, 2024
机器学习模型存在安全漏洞,包括泄漏关于模型的训练数据的攻击。该研究探讨如何在隐私保护问题中有效应对数据删除需求,通过有效更新已训练模型的机器遗忘算法,以维持模型性能,避免重新训练模型的代价。本文提出了替代性的算法评估方法,通过针对图像识别数据集的实验,对当前机器遗忘算法进行更详细的评估,展示了该领域的最新状况。
May, 2024
机器学习模型面对大规模互联网数据集引起的数据完整性挑战,本研究探讨在检测到数据被篡改或错误时模型开发者能够做出的应对措施。我们将 “修正机器遗忘” 定义为解决训练模型中受未知篡改影响数据的问题,尽管只能知道受影响样本的一个小部分。我们发现修正遗忘问题与传统的注重隐私的遗忘方法有显著不同的要求。我们希望我们的工作能促进对修正遗忘方法的研究,为处理来自于大规模网络训练带来的数据完整性挑战的从业者提供新的策略。
Feb, 2024
本文研究机器取消学习对隐私的影响,并通过提出新型会员推理攻击来论证了取消学习会留下数据迹象,从而产生意外隐私风险。我们提出了四种方法来减轻这些隐私风险,包括发布预测标签,温度缩放和差分隐私。
May, 2020
本文旨在对机器学习模型中 “遗忘特定数据” 的概念、场景、方法和应用进行综合性探讨,并为研究人员和从业人员提供包括设计标准和算法在内的全面资源,以帮助创新隐私技术和提醒相关研究领域存在的问题。
Sep, 2022