高退训比例下的最小梯度相关性机器反学习
将 “被遗忘的权利” 作为用户数据隐私的法律保证变得日益重要。机器遗忘旨在高效地从训练模型参数中去除特定数据点的影响,以便与从头开始重新训练模型时近似相同。本文提出了基于噪声随机梯度下降(SGD)的随机梯度 Langevin 遗忘框架,为凸性假设下的近似遗忘问题提供了带有隐私保证的第一个遗忘方法。我们的研究结果表明,与全批次更新相比,小批次梯度更新提供了更好的隐私 - 复杂性权衡。我们的遗忘方法具有许多算法上的优势,包括与重新训练相比的复杂性节省,以及支持顺序和批次遗忘。为了研究我们方法的隐私 - 效用 - 复杂性权衡,我们在基准数据集上进行了实验,与之前的工作进行了比较。相比于小批次和全批次设置下基于梯度的近似遗忘方法,我们的方法在相同隐私限制条件下使用了 2% 和 10% 的梯度计算,同时达到了类似的效用。
Mar, 2024
机器遗忘方法针对用户隐私保护目标有重要作用,但会带来大量计算成本。我们提出了细粒度 Top-K 和 Random-k 参数扰动的不精确机器遗忘策略,以在保持可计算性开销的同时满足隐私需求。我们还引入了评估机器遗忘效果和模型泛化能力的新指标 —— 遗忘率和记忆保留率。通过实施这些创新技术和指标,我们在不显著牺牲模型性能的前提下实现了高效的隐私保护,并提供了一种评估遗忘程度的新方法。
Jan, 2024
最近的数据隐私法引起了对机器去学习的兴趣,机器去学习涉及从学习模型中删除特定训练样本的影响,就像这些样本从未出现在原始训练数据集中一样,这个挑战在于在学习模型中丢弃关于 “遗忘” 数据的信息,同时不改变对剩余数据集的知识,并且比起重新训练的方法更高效,为了实现这一点,我们采用了一种基于投影梯度的学习方法,即投影梯度去学习(PGU),在这种方法中,模型在与被认为是对保留的数据集不重要的梯度子空间相对正交的方向上迈出步伐,以便保留其知识。通过利用随机梯度下降(SGD)来更新模型权重,我们的方法可以高效地适用于任何模型和数据集大小。我们提供实证证据表明,即使无法访问训练数据集,我们的去学习方法产生的模型在各种度量指标上表现与从头开始重新训练的模型类似。我们的代码可在此 https URL 中找到。
Dec, 2023
机器学习中的模型撤销能够有效解决数据隐私问题,本研究通过实证评估表明首次梯度上升法在机器学习中的撤销过程更为有效,突出了其在提升数据隐私和符合法规(如 GDPR 和 CCPA)方面的潜力。
Jun, 2024
机器遗忘是一项关键技术,用于选择性地移除训练数据点对训练模型的影响。本文提供了机器遗忘研究的全面分类和分析,并回顾了最新的解决方案,讨论了其优势和限制,并提出了未来的发展方向,以推动机器遗忘作为一项必要的可信和自适应机器学习能力。
Aug, 2023
通过创造一种新的损失函数,将目标分类损失和成员推断损失相结合,用于从神经网络中删除敏感信息的机器遗忘机制,本研究通过成员推断机制作为概念验证,提供了实验证据,证明了我们的遗忘方法在遗忘效果、延迟和主要任务准确性方面的优越性。
Jul, 2024
该调查提供了机器遗忘技术的简明评估,概述了准确和近似方法、可疑攻击和验证方法,并比较了每种方法的优点和局限性,评估了它们的性能,突出了挑战性的需求。提供强大的非 IID 删除模型以缓解公平性问题,并指出该领域未来的研究方向,旨在为寻求在 ML 系统中提供隐私和平等的研究人员和从业者提供有价值的资源。
May, 2023
通过引入明确定义和有效的度量标准来解决黑箱取消学习审核任务的挑战,该论文分析了当前近似机器取消学习算法的实用性、韧性和公平性,并旨在将数据遗忘的理论权利转化为可审计的现实。
Mar, 2024
我们介绍了一种基于梯度约束的新方法,用于有效实现机器遗忘,无需大量训练周期和仅需要标识待遗忘数据,该方法在对比学习模型和监督学习模型上表现出色,展示了其在各种学习范式中的多功能性和适应性。
May, 2024
通过操纵梯度并将其投影到被保留梯度的法向平面上,我们提出了一种简单但有效的方法来移除深度生成模型中数据的影响。我们的方法不受移除样本统计的限制,在去学习生成模型方面优于现有基线,并首次提供了理论分析。
Jul, 2023