展开随机梯度下降:理解影响机器遗忘的因素
将 “被遗忘的权利” 作为用户数据隐私的法律保证变得日益重要。机器遗忘旨在高效地从训练模型参数中去除特定数据点的影响,以便与从头开始重新训练模型时近似相同。本文提出了基于噪声随机梯度下降(SGD)的随机梯度 Langevin 遗忘框架,为凸性假设下的近似遗忘问题提供了带有隐私保证的第一个遗忘方法。我们的研究结果表明,与全批次更新相比,小批次梯度更新提供了更好的隐私 - 复杂性权衡。我们的遗忘方法具有许多算法上的优势,包括与重新训练相比的复杂性节省,以及支持顺序和批次遗忘。为了研究我们方法的隐私 - 效用 - 复杂性权衡,我们在基准数据集上进行了实验,与之前的工作进行了比较。相比于小批次和全批次设置下基于梯度的近似遗忘方法,我们的方法在相同隐私限制条件下使用了 2% 和 10% 的梯度计算,同时达到了类似的效用。
Mar, 2024
通过引入明确定义和有效的度量标准来解决黑箱取消学习审核任务的挑战,该论文分析了当前近似机器取消学习算法的实用性、韧性和公平性,并旨在将数据遗忘的理论权利转化为可审计的现实。
Mar, 2024
机器遗忘方法针对用户隐私保护目标有重要作用,但会带来大量计算成本。我们提出了细粒度 Top-K 和 Random-k 参数扰动的不精确机器遗忘策略,以在保持可计算性开销的同时满足隐私需求。我们还引入了评估机器遗忘效果和模型泛化能力的新指标 —— 遗忘率和记忆保留率。通过实施这些创新技术和指标,我们在不显著牺牲模型性能的前提下实现了高效的隐私保护,并提供了一种评估遗忘程度的新方法。
Jan, 2024
最近的数据隐私法引起了对机器去学习的兴趣,机器去学习涉及从学习模型中删除特定训练样本的影响,就像这些样本从未出现在原始训练数据集中一样,这个挑战在于在学习模型中丢弃关于 “遗忘” 数据的信息,同时不改变对剩余数据集的知识,并且比起重新训练的方法更高效,为了实现这一点,我们采用了一种基于投影梯度的学习方法,即投影梯度去学习(PGU),在这种方法中,模型在与被认为是对保留的数据集不重要的梯度子空间相对正交的方向上迈出步伐,以便保留其知识。通过利用随机梯度下降(SGD)来更新模型权重,我们的方法可以高效地适用于任何模型和数据集大小。我们提供实证证据表明,即使无法访问训练数据集,我们的去学习方法产生的模型在各种度量指标上表现与从头开始重新训练的模型类似。我们的代码可在此 https URL 中找到。
Dec, 2023
机器学习中的模型撤销能够有效解决数据隐私问题,本研究通过实证评估表明首次梯度上升法在机器学习中的撤销过程更为有效,突出了其在提升数据隐私和符合法规(如 GDPR 和 CCPA)方面的潜力。
Jun, 2024
本文研究了在已训练好的模型中删除数据点的相关问题,特别是在凸损失的情况下提供了一个算法来取消学习的样本数,与差分隐私学习相比,演示了差分隐私和机器遗忘之间的新颖区别。
Mar, 2021
基于噪声梯度下降的兰格文反训练为近似反训练问题提供隐私保证,将 DP 学习过程与隐私认证的反训练过程统一,具有多种算法优势,包括非凸问题的近似认证的反训练、与重新训练相比的复杂性节约、用于多个反训练请求的顺序和批量反训练。通过在基准数据集上进行实验验证了兰格文反训练的实用性和隐私 - 效用 - 复杂性的权衡,并展示了其相对于基于梯度下降加输出扰动的近似反训练的优越性。
Jan, 2024
机器遗忘是从训练模型中删除某个子集(即 “遗忘集”)的效果,而不损害模型的效用,例如遵守用户要求删除他们的数据,或删除错误标记、被污染或其他有问题的数据。本文通过调查两个影响遗忘难度和算法性能的关键因素,发现基于这些因素的遗忘集评估揭示了先进算法的新行为,从而改善了顶级的遗忘算法。
Jun, 2024
通过操纵梯度并将其投影到被保留梯度的法向平面上,我们提出了一种简单但有效的方法来移除深度生成模型中数据的影响。我们的方法不受移除样本统计的限制,在去学习生成模型方面优于现有基线,并首次提供了理论分析。
Jul, 2023