兰格万去学习:机器去学习的噪音梯度下降的新视角
该调查提供了机器遗忘技术的简明评估,概述了准确和近似方法、可疑攻击和验证方法,并比较了每种方法的优点和局限性,评估了它们的性能,突出了挑战性的需求。提供强大的非IID删除模型以缓解公平性问题,并指出该领域未来的研究方向,旨在为寻求在ML系统中提供隐私和平等的研究人员和从业者提供有价值的资源。
May, 2023
机器遗忘方法针对用户隐私保护目标有重要作用,但会带来大量计算成本。我们提出了细粒度 Top-K 和 Random-k 参数扰动的不精确机器遗忘策略,以在保持可计算性开销的同时满足隐私需求。我们还引入了评估机器遗忘效果和模型泛化能力的新指标——遗忘率和记忆保留率。通过实施这些创新技术和指标,我们在不显著牺牲模型性能的前提下实现了高效的隐私保护,并提供了一种评估遗忘程度的新方法。
Jan, 2024
将“被遗忘的权利”作为用户数据隐私的法律保证变得日益重要。机器遗忘旨在高效地从训练模型参数中去除特定数据点的影响,以便与从头开始重新训练模型时近似相同。本文提出了基于噪声随机梯度下降(SGD)的随机梯度Langevin遗忘框架,为凸性假设下的近似遗忘问题提供了带有隐私保证的第一个遗忘方法。我们的研究结果表明,与全批次更新相比,小批次梯度更新提供了更好的隐私-复杂性权衡。我们的遗忘方法具有许多算法上的优势,包括与重新训练相比的复杂性节省,以及支持顺序和批次遗忘。为了研究我们方法的隐私-效用-复杂性权衡,我们在基准数据集上进行了实验,与之前的工作进行了比较。相比于小批次和全批次设置下基于梯度的近似遗忘方法,我们的方法在相同隐私限制条件下使用了2%和10%的梯度计算,同时达到了类似的效用。
Mar, 2024
机器学习模型存在安全漏洞,包括泄漏关于模型的训练数据的攻击。该研究探讨如何在隐私保护问题中有效应对数据删除需求,通过有效更新已训练模型的机器遗忘算法,以维持模型性能,避免重新训练模型的代价。本文提出了替代性的算法评估方法,通过针对图像识别数据集的实验,对当前机器遗忘算法进行更详细的评估,展示了该领域的最新状况。
May, 2024
机器学习中的模型撤销能够有效解决数据隐私问题,本研究通过实证评估表明首次梯度上升法在机器学习中的撤销过程更为有效,突出了其在提升数据隐私和符合法规(如GDPR和CCPA)方面的潜力。
Jun, 2024
基于凸松弛的框架可以计算形式化的保证(证书),以满足特定预测的 ε=0 隐私保证,或者不依赖于可撤销请求的数据。验证为中心的隐私与撤销保证可用于增加用户信任度,提供针对某些成员推理攻击的鲁棒性的形式化证明,确定可能容易受攻击的记录,并增强当前的撤销方法。
Jun, 2024
我们提出了一种新颖的算法,利用自然梯度下降(NGD)来有效可靠地从采用经验风险最小化(ERM)训练的机器学习模型中删除数据,从而避免从头开始重新训练模型。我们的理论框架为凸模型提供了强大的隐私保证,而针对非凸模型开发了实践中的Min/Max优化算法。全面的评估结果显示,与最先进的方法相比,在隐私性、计算效率和泛化性能方面取得了显著改进,推动了机器学习模型反学习的理论和实践方面的发展。
Jul, 2024
该研究解决了在非凸损失函数中有效删除数据的挑战,提出了一种简单的一阶算法,通过回溯学习过程中的早期步骤实现数据的遗忘。研究证明了算法在隐私、效用和复杂性之间的权衡,保证了对非凸函数的(ε,δ)认证遗忘。
Sep, 2024
本研究旨在解决机器学习中数据遗忘难题,尤其是在保护隐私和保持模型性能方面。提出了一种新的机器遗忘方法,通过层次相关分析和对高度相关神经元的扰动,实现高效的零-shot遗忘和隐私保护。实验表明,该方法能够有效去除目标数据,同时维持模型的实用性,为隐私保护的机器学习提供了切实可行的解决方案。
Oct, 2024
本研究解决了机器学习模型在处理偏见数据及遵循隐私法规(如GDPR“被遗忘权”)时的遗忘机制不足的问题。提出的伪概率遗忘(PPU)方法,通过使用伪概率替代最终输出,实现了高效且隐私保护的数据遗忘。实验表明,该方法在遗忘错误率上相比现有技术提高超过20%,同时有效降低了被推断的风险。
Nov, 2024