基于随机条件独立 Hessians 的深度去学习
本文提出了一种编码学习协议,其利用线性编码器将训练数据编码成碎片,以便进行学习和 “完美取消学习”(unlearning),实验结果表明,相比未编码的基线,该编码机器学习方法提供了更好的性能与取消学习成本的平衡。
Dec, 2020
机器遗忘旨在维护数据所有者的被遗忘权利,通过使模型有选择地忘记特定的数据。我们提出了一种基于 Hessian 的在线遗忘方法,通过计算学习模型和重新训练模型之间差异的仿射随机递归近似,为每个数据点维护一个统计向量,实现了几乎瞬时的在线遗忘,只需进行向量相加操作。基于重新收集遗忘数据的统计信息的策略,所提出的方法显著减少了遗忘运行时间。实验研究表明,所提出的方案在时间和内存成本方面的性能超过了现有结果,同时提高了准确性。
Apr, 2024
研究讨论在人工智能领域中实施遗忘权利将会引起难以承受的成本问题,该论文提出了用于 Markov chain Monte Carlo (简称 MCMC)的机器遗忘算法,第一次将 MCMC 反向推导为明确的最优化问题,通过 MCMC 引导函数确定遗忘的知识来达到遗忘的目的,并证明该算法不会损害 MCMC 模型的泛化能力。
Mar, 2022
改进机器遗忘,提出图像分类的数据集精简技术和创新性遗忘方案,平衡隐私保护、实用性和效率,并运用于抵御成员推理和模型逆推攻击,并去除精简模型中的数据以快速训练任何模型。
Jan, 2024
将 “被遗忘的权利” 作为用户数据隐私的法律保证变得日益重要。机器遗忘旨在高效地从训练模型参数中去除特定数据点的影响,以便与从头开始重新训练模型时近似相同。本文提出了基于噪声随机梯度下降(SGD)的随机梯度 Langevin 遗忘框架,为凸性假设下的近似遗忘问题提供了带有隐私保证的第一个遗忘方法。我们的研究结果表明,与全批次更新相比,小批次梯度更新提供了更好的隐私 - 复杂性权衡。我们的遗忘方法具有许多算法上的优势,包括与重新训练相比的复杂性节省,以及支持顺序和批次遗忘。为了研究我们方法的隐私 - 效用 - 复杂性权衡,我们在基准数据集上进行了实验,与之前的工作进行了比较。相比于小批次和全批次设置下基于梯度的近似遗忘方法,我们的方法在相同隐私限制条件下使用了 2% 和 10% 的梯度计算,同时达到了类似的效用。
Mar, 2024
最近的数据隐私法引起了对机器去学习的兴趣,机器去学习涉及从学习模型中删除特定训练样本的影响,就像这些样本从未出现在原始训练数据集中一样,这个挑战在于在学习模型中丢弃关于 “遗忘” 数据的信息,同时不改变对剩余数据集的知识,并且比起重新训练的方法更高效,为了实现这一点,我们采用了一种基于投影梯度的学习方法,即投影梯度去学习(PGU),在这种方法中,模型在与被认为是对保留的数据集不重要的梯度子空间相对正交的方向上迈出步伐,以便保留其知识。通过利用随机梯度下降(SGD)来更新模型权重,我们的方法可以高效地适用于任何模型和数据集大小。我们提供实证证据表明,即使无法访问训练数据集,我们的去学习方法产生的模型在各种度量指标上表现与从头开始重新训练的模型类似。我们的代码可在此 https URL 中找到。
Dec, 2023
通过操纵梯度并将其投影到被保留梯度的法向平面上,我们提出了一种简单但有效的方法来移除深度生成模型中数据的影响。我们的方法不受移除样本统计的限制,在去学习生成模型方面优于现有基线,并首次提供了理论分析。
Jul, 2023
本文研究了在已训练好的模型中删除数据点的相关问题,特别是在凸损失的情况下提供了一个算法来取消学习的样本数,与差分隐私学习相比,演示了差分隐私和机器遗忘之间的新颖区别。
Mar, 2021
机器去学习是一项理想的操作,然而实现精确的去学习是具有挑战性或低效的,这篇论文关注于大型语言模型的任务适应阶段的高效去学习方法,并提供了一种算法来选择少量训练样本进行任务适应,最终得出在上下文学习方面比微调方法更有优势的结论。
Feb, 2024
本文提出了一种基于 MCU 算法的机器学习模型快速且高效地去除数据子集的方案,并利用 MCU 鉴别和标志对模型预测产生影响的对抗或隐私数据。实验表明,MCU 可以从训练数据集的子集中有效地去除模型的影响,并优于现有的算法。
Feb, 2022