从自适应查询发布到机器消除学习
本文研究了在已训练好的模型中删除数据点的相关问题,特别是在凸损失的情况下提供了一个算法来取消学习的样本数,与差分隐私学习相比,演示了差分隐私和机器遗忘之间的新颖区别。
Mar, 2021
将 “被遗忘的权利” 作为用户数据隐私的法律保证变得日益重要。机器遗忘旨在高效地从训练模型参数中去除特定数据点的影响,以便与从头开始重新训练模型时近似相同。本文提出了基于噪声随机梯度下降(SGD)的随机梯度 Langevin 遗忘框架,为凸性假设下的近似遗忘问题提供了带有隐私保证的第一个遗忘方法。我们的研究结果表明,与全批次更新相比,小批次梯度更新提供了更好的隐私 - 复杂性权衡。我们的遗忘方法具有许多算法上的优势,包括与重新训练相比的复杂性节省,以及支持顺序和批次遗忘。为了研究我们方法的隐私 - 效用 - 复杂性权衡,我们在基准数据集上进行了实验,与之前的工作进行了比较。相比于小批次和全批次设置下基于梯度的近似遗忘方法,我们的方法在相同隐私限制条件下使用了 2% 和 10% 的梯度计算,同时达到了类似的效用。
Mar, 2024
机器去学习是一项理想的操作,然而实现精确的去学习是具有挑战性或低效的,这篇论文关注于大型语言模型的任务适应阶段的高效去学习方法,并提供了一种算法来选择少量训练样本进行任务适应,最终得出在上下文学习方面比微调方法更有优势的结论。
Feb, 2024
基于噪声梯度下降的兰格文反训练为近似反训练问题提供隐私保证,将 DP 学习过程与隐私认证的反训练过程统一,具有多种算法优势,包括非凸问题的近似认证的反训练、与重新训练相比的复杂性节约、用于多个反训练请求的顺序和批量反训练。通过在基准数据集上进行实验验证了兰格文反训练的实用性和隐私 - 效用 - 复杂性的权衡,并展示了其相对于基于梯度下降加输出扰动的近似反训练的优越性。
Jan, 2024
我们研究了 $(\epsilon,\delta)$- 认证的最小化机器取消学习问题,提出了一个基于总 Hessian 完整的 Newton 更新和差分隐私中借用的高斯机制的新算法。我们推导了三种不同损失函数情况下的泛化率,并提供了删除容量来保证所需的总体风险能够保持,只要删除的样本数量不超过导出的数量。
Dec, 2023
本文研究机器遗忘问题,并确定算法稳定性的概念 —— 总变差(TV)稳定性,通过噪声随机梯度下降(SGD)设计基于 TV 稳定算法的高效遗忘算法,为了了解准确性与遗忘效率之间的权衡,本文对凸风险最小化的 TV 稳定算法进行了上下界分析,该技术可以推广到任意非凸函数,而且算法具有差分隐私保护。
Feb, 2021
在 AI 和数据法规的合规要求下,从训练的机器学习模型中忘记私人或受版权保护的信息变得越来越重要。在本研究中,我们解决了零样本遗忘的挑战,即一个遗忘算法必须能够在只有训练好的模型和需要被遗忘的数据的情况下移除数据。基于 Lipschitz 连续性的概念,我们提出了一种方法来引导遗忘样本输出的平滑化,以应对该样本的扰动。我们展示了这种平滑化成功地实现了遗忘同时保持模型性能的目标。我们在多个现代基准测试中对我们的方法进行了广泛的经验评估,验证了我们的方法在严格的零样本遗忘约束下达到了最先进的性能。
Feb, 2024
机器学习模型存在安全漏洞,包括泄漏关于模型的训练数据的攻击。该研究探讨如何在隐私保护问题中有效应对数据删除需求,通过有效更新已训练模型的机器遗忘算法,以维持模型性能,避免重新训练模型的代价。本文提出了替代性的算法评估方法,通过针对图像识别数据集的实验,对当前机器遗忘算法进行更详细的评估,展示了该领域的最新状况。
May, 2024
本文研究如何通过减少 verification error 和限制权重变化来实现近似机器遗忘,特别是在深度学习模型训练中使用随机梯度下降算法(SGD),以此来提高模型的整体性能。
Sep, 2021
基于凸松弛的框架可以计算形式化的保证(证书),以满足特定预测的 ε=0 隐私保证,或者不依赖于可撤销请求的数据。验证为中心的隐私与撤销保证可用于增加用户信任度,提供针对某些成员推理攻击的鲁棒性的形式化证明,确定可能容易受攻击的记录,并增强当前的撤销方法。
Jun, 2024