通过李普希茨正则化实现规模化的零样本机器遗忘

Feb, 2024

通过李普希茨正则化实现规模化的零样本机器遗忘

Zero-Shot Machine Unlearning at Scale via Lipschitz Regularization

Jack Foster, Kyle Fogarty, Stefan Schoepf, Cengiz Öztireli, Alexandra Brintrup

TL;DR在 AI 和数据法规的合规要求下，从训练的机器学习模型中忘记私人或受版权保护的信息变得越来越重要。在本研究中，我们解决了零样本遗忘的挑战，即一个遗忘算法必须能够在只有训练好的模型和需要被遗忘的数据的情况下移除数据。基于 Lipschitz 连续性的概念，我们提出了一种方法来引导遗忘样本输出的平滑化，以应对该样本的扰动。我们展示了这种平滑化成功地实现了遗忘同时保持模型性能的目标。我们在多个现代基准测试中对我们的方法进行了广泛的经验评估，验证了我们的方法在严格的零样本遗忘约束下达到了最先进的性能。

Abstract

To comply with AI and data regulations, the need to forget private or copyrighted information from trained machine learning models is increasingly important. The key challenge in →

unlearning machine learning models zero-shot unlearning lipschitz continuity data regulations

发现论文，激发创造

零样本机器遗忘

本論文提出了一個名為 Zero-shot 機器學習的新問題，探討如何從 MOD 交易所中刪除特定集合或類別的數據，介紹一種基於誤差最小化最大化噪音和門控知識傳遞的解決方案，實驗結果在基準視覺數據集上展示了良好的效果。

Jan, 2022

忘记你想忘记的：机器遗忘算法

本文研究了在已训练好的模型中删除数据点的相关问题，特别是在凸损失的情况下提供了一个算法来取消学习的样本数，与差分隐私学习相比，演示了差分隐私和机器遗忘之间的新颖区别。

Mar, 2021

图像到图像生成模型的机器反学习

提出了机器遗忘在图像生成模型中的普适框架，通过计算高效的算法，能够在保留样本上几乎不影响性能，同时有效地从遗忘样本中删除信息，而且不依赖保留样本的可用性，符合数据保留政策。

Feb, 2024

稀疏表示的遗忘

基于离散表示瓶颈的几乎无计算成本的零样本遗忘技术能有效遗忘忘记集，对数据集余下的部分几乎没有性能损失，并在 CIFAR-10、CIFAR-100 和 LACUNA-100 的三个数据集上进行了评估，与知识蒸馏用于遗忘的先进方法 SCRUB 相比，这种技术表现出与 SCRUB 几乎无计算成本相当甚至更好的性能。

Nov, 2023

上下文学习中的不可学习算法

机器去学习是一项理想的操作，然而实现精确的去学习是具有挑战性或低效的，这篇论文关注于大型语言模型的任务适应阶段的高效去学习方法，并提供了一种算法来选择少量训练样本进行任务适应，最终得出在上下文学习方面比微调方法更有优势的结论。

Feb, 2024

随机梯度 Langevin 反学习

将 “被遗忘的权利” 作为用户数据隐私的法律保证变得日益重要。机器遗忘旨在高效地从训练模型参数中去除特定数据点的影响，以便与从头开始重新训练模型时近似相同。本文提出了基于噪声随机梯度下降（SGD）的随机梯度 Langevin 遗忘框架，为凸性假设下的近似遗忘问题提供了带有隐私保证的第一个遗忘方法。我们的研究结果表明，与全批次更新相比，小批次梯度更新提供了更好的隐私 - 复杂性权衡。我们的遗忘方法具有许多算法上的优势，包括与重新训练相比的复杂性节省，以及支持顺序和批次遗忘。为了研究我们方法的隐私 - 效用 - 复杂性权衡，我们在基准数据集上进行了实验，与之前的工作进行了比较。相比于小批次和全批次设置下基于梯度的近似遗忘方法，我们的方法在相同隐私限制条件下使用了 2% 和 10% 的梯度计算，同时达到了类似的效用。

Mar, 2024

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

用于生成模型的一次性遗忘的梯度手术

通过操纵梯度并将其投影到被保留梯度的法向平面上，我们提出了一种简单但有效的方法来移除深度生成模型中数据的影响。我们的方法不受移除样本统计的限制，在去学习生成模型方面优于现有基线，并首次提供了理论分析。

Jul, 2023

上下文中的遗忘：语言模型作为少样本遗忘器

提出了一种称为 “In-Context Unlearning” 的 LLM 的反学习方法，通过在推理时提供具有翻转标签和额外正确标记的实例作为输入，有效地从训练集中删除特定信息，同时保持与最先进的反学习方法相媲美甚至超过其性能水平。

Oct, 2023

边界遗忘

本研究通过边界移动的方法，提出了一种高效的、可以快速忘记训练数据的机器遗忘技术 ——Boundary Unlearning，成功应用于图像分类和人脸识别等任务，并取得了预期的速度提升。

Mar, 2023