一种更实用的机器取消学习方法
机器遗忘是一项关键技术,用于选择性地移除训练数据点对训练模型的影响。本文提供了机器遗忘研究的全面分类和分析,并回顾了最新的解决方案,讨论了其优势和限制,并提出了未来的发展方向,以推动机器遗忘作为一项必要的可信和自适应机器学习能力。
Aug, 2023
机器遗忘方法针对用户隐私保护目标有重要作用,但会带来大量计算成本。我们提出了细粒度 Top-K 和 Random-k 参数扰动的不精确机器遗忘策略,以在保持可计算性开销的同时满足隐私需求。我们还引入了评估机器遗忘效果和模型泛化能力的新指标 —— 遗忘率和记忆保留率。通过实施这些创新技术和指标,我们在不显著牺牲模型性能的前提下实现了高效的隐私保护,并提供了一种评估遗忘程度的新方法。
Jan, 2024
该调查提供了机器遗忘技术的简明评估,概述了准确和近似方法、可疑攻击和验证方法,并比较了每种方法的优点和局限性,评估了它们的性能,突出了挑战性的需求。提供强大的非 IID 删除模型以缓解公平性问题,并指出该领域未来的研究方向,旨在为寻求在 ML 系统中提供隐私和平等的研究人员和从业者提供有价值的资源。
May, 2023
最近的数据隐私法引起了对机器去学习的兴趣,机器去学习涉及从学习模型中删除特定训练样本的影响,就像这些样本从未出现在原始训练数据集中一样,这个挑战在于在学习模型中丢弃关于 “遗忘” 数据的信息,同时不改变对剩余数据集的知识,并且比起重新训练的方法更高效,为了实现这一点,我们采用了一种基于投影梯度的学习方法,即投影梯度去学习(PGU),在这种方法中,模型在与被认为是对保留的数据集不重要的梯度子空间相对正交的方向上迈出步伐,以便保留其知识。通过利用随机梯度下降(SGD)来更新模型权重,我们的方法可以高效地适用于任何模型和数据集大小。我们提供实证证据表明,即使无法访问训练数据集,我们的去学习方法产生的模型在各种度量指标上表现与从头开始重新训练的模型类似。我们的代码可在此 https URL 中找到。
Dec, 2023
该研究综述了现有的机器去学习方法,系统地分类并讨论了其差异、联系和开放问题,包括集中式去学习、分布式和不规则数据去学习、去学习验证以及隐私和安全问题,并提出了潜在的研究方向。
May, 2024
通过操纵梯度并将其投影到被保留梯度的法向平面上,我们提出了一种简单但有效的方法来移除深度生成模型中数据的影响。我们的方法不受移除样本统计的限制,在去学习生成模型方面优于现有基线,并首次提供了理论分析。
Jul, 2023
机器学习模型存在安全漏洞,包括泄漏关于模型的训练数据的攻击。该研究探讨如何在隐私保护问题中有效应对数据删除需求,通过有效更新已训练模型的机器遗忘算法,以维持模型性能,避免重新训练模型的代价。本文提出了替代性的算法评估方法,通过针对图像识别数据集的实验,对当前机器遗忘算法进行更详细的评估,展示了该领域的最新状况。
May, 2024
机器遗忘是人工智能中的一个新领域,专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战,特别是在大型语言模型(LLM)的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法,以便符合伦理、隐私和安全标准,并目标性地删除或修改 LLM 中的学习信息,以解决有害回应和版权问题。
May, 2024
将 “被遗忘的权利” 作为用户数据隐私的法律保证变得日益重要。机器遗忘旨在高效地从训练模型参数中去除特定数据点的影响,以便与从头开始重新训练模型时近似相同。本文提出了基于噪声随机梯度下降(SGD)的随机梯度 Langevin 遗忘框架,为凸性假设下的近似遗忘问题提供了带有隐私保证的第一个遗忘方法。我们的研究结果表明,与全批次更新相比,小批次梯度更新提供了更好的隐私 - 复杂性权衡。我们的遗忘方法具有许多算法上的优势,包括与重新训练相比的复杂性节省,以及支持顺序和批次遗忘。为了研究我们方法的隐私 - 效用 - 复杂性权衡,我们在基准数据集上进行了实验,与之前的工作进行了比较。相比于小批次和全批次设置下基于梯度的近似遗忘方法,我们的方法在相同隐私限制条件下使用了 2% 和 10% 的梯度计算,同时达到了类似的效用。
Mar, 2024
该文献介绍了一类新的机器遗忘算法,其中包括部分失忆式遗忘和逐层剪枝。通过详细的实验评估,展示了所提出的遗忘方法的有效性,部分失忆式遗忘不仅保持了模型效果,还消除了简短预训练的必要性,而逐层部分更新在标签翻转和基于优化的遗忘技术中显示了较于其原始方法更优的模型效果保留能力。
Mar, 2024