用于生成模型的一次性遗忘的梯度手术
最近的数据隐私法引起了对机器去学习的兴趣,机器去学习涉及从学习模型中删除特定训练样本的影响,就像这些样本从未出现在原始训练数据集中一样,这个挑战在于在学习模型中丢弃关于 “遗忘” 数据的信息,同时不改变对剩余数据集的知识,并且比起重新训练的方法更高效,为了实现这一点,我们采用了一种基于投影梯度的学习方法,即投影梯度去学习(PGU),在这种方法中,模型在与被认为是对保留的数据集不重要的梯度子空间相对正交的方向上迈出步伐,以便保留其知识。通过利用随机梯度下降(SGD)来更新模型权重,我们的方法可以高效地适用于任何模型和数据集大小。我们提供实证证据表明,即使无法访问训练数据集,我们的去学习方法产生的模型在各种度量指标上表现与从头开始重新训练的模型类似。我们的代码可在此 https URL 中找到。
Dec, 2023
将 “被遗忘的权利” 作为用户数据隐私的法律保证变得日益重要。机器遗忘旨在高效地从训练模型参数中去除特定数据点的影响,以便与从头开始重新训练模型时近似相同。本文提出了基于噪声随机梯度下降(SGD)的随机梯度 Langevin 遗忘框架,为凸性假设下的近似遗忘问题提供了带有隐私保证的第一个遗忘方法。我们的研究结果表明,与全批次更新相比,小批次梯度更新提供了更好的隐私 - 复杂性权衡。我们的遗忘方法具有许多算法上的优势,包括与重新训练相比的复杂性节省,以及支持顺序和批次遗忘。为了研究我们方法的隐私 - 效用 - 复杂性权衡,我们在基准数据集上进行了实验,与之前的工作进行了比较。相比于小批次和全批次设置下基于梯度的近似遗忘方法,我们的方法在相同隐私限制条件下使用了 2% 和 10% 的梯度计算,同时达到了类似的效用。
Mar, 2024
提出了机器遗忘在图像生成模型中的普适框架,通过计算高效的算法,能够在保留样本上几乎不影响性能,同时有效地从遗忘样本中删除信息,而且不依赖保留样本的可用性,符合数据保留政策。
Feb, 2024
机器学习中的模型撤销能够有效解决数据隐私问题,本研究通过实证评估表明首次梯度上升法在机器学习中的撤销过程更为有效,突出了其在提升数据隐私和符合法规(如 GDPR 和 CCPA)方面的潜力。
Jun, 2024
机器遗忘方法针对用户隐私保护目标有重要作用,但会带来大量计算成本。我们提出了细粒度 Top-K 和 Random-k 参数扰动的不精确机器遗忘策略,以在保持可计算性开销的同时满足隐私需求。我们还引入了评估机器遗忘效果和模型泛化能力的新指标 —— 遗忘率和记忆保留率。通过实施这些创新技术和指标,我们在不显著牺牲模型性能的前提下实现了高效的隐私保护,并提供了一种评估遗忘程度的新方法。
Jan, 2024
我们提出了一种有效、高效、模型无关的后处理方法来实现动态图神经网络的去学习,通过定义去学习请求并在连续时间动态图的背景下形成动态图的去学习,通过对去学习数据、剩余数据和目标动态图神经网络模型进行角色分析,我们提出了一种称为梯度变换和损失函数的方法,将去学习请求映射到所需的参数更新。我们在六个真实世界数据集和最先进的动态图神经网络骨干上进行评估,证明了其效果(例如,性能下降有限,甚至明显改进),效率(例如,最多 7.23 倍加速)和处理未来去学习请求的潜在优势(例如,最多 32.59 倍加速)。
May, 2024
Mini-Unlearning 是一种轻量级、可扩展的方法,通过最小的一部分历史梯度以及收缩映射来有效地实现高比例的 machine unlearning,提高模型准确性并增强对隐私攻击的抵抗力。
Jun, 2024
我们提出了一种新的类别遗忘算法,通过估计待保留和遗忘类别的特征或激活空间,并计算这些空间之间的共享信息,从而实现有效的机器遗忘,并在各种图像分类数据集和网络架构中相比其他基准算法效果明显提高,且计算效率提高了约 6 倍。
Dec, 2023
本文研究如何通过减少 verification error 和限制权重变化来实现近似机器遗忘,特别是在深度学习模型训练中使用随机梯度下降算法(SGD),以此来提高模型的整体性能。
Sep, 2021
通过对预训练大语言模型的机器遗忘进行综合研究,我们探讨了‘被遗忘权’的概念,重点关注了尚未充分研究的预训练模型领域。通过对来自 arXiv、书籍和 GitHub 的精选数据集进行严格评估,我们建立了机器遗忘性能的鲁棒基准,并证明这些方法的计算效率比重新训练高出 10^5 倍。我们的研究结果表明,在分布数据上将梯度上升与梯度下降相结合可以提高超参数的稳健性。此外,我们还提供了高效超参数调整的详细指南。我们的发现推动了关于道德 AI 实践的讨论,为预训练大语言模型的机器遗忘机制提供了实质性的见解,并强调了负责任的 AI 发展的潜力。
Feb, 2024