- 基于梯度训练的差分隐私和遗忘的证明
基于凸松弛的框架可以计算形式化的保证(证书),以满足特定预测的 ε=0 隐私保证,或者不依赖于可撤销请求的数据。验证为中心的隐私与撤销保证可用于增加用户信任度,提供针对某些成员推理攻击的鲁棒性的形式化证明,确定可能容易受攻击的记录,并增强当 - 使用参数化知识痕迹对去学习进行内在评估
通过对概念向量及其参数化知识痕迹的独立评估,我们发现现有的去学习方法对概念向量的影响较小,而直接删除这些向量则显著降低了大型语言模型对对抗操纵的敏感性,突显了基于行为的去学习评估存在的局限性并呼吁未来的研究考虑参数化评估。
- 我们在忘却方面取得进展吗?来自首个 NeurIPS 忘却竞赛的发现
我们提供了第一个关于 unlearning 的 NeurIPS 竞赛结果,分析了顶尖解决方案并深入讨论了 benchmarking 和算法开发在这一重要领域的进展。
- 大型语言模型通过嵌入损坏的提示进行遗忘学习
大语言模型的轻便取消学习框架 (ECO) 通过使用提示分类器在推理过程中添加和损坏的提示嵌入来实现知识的取消学习。
- KDD快速 FedUL:具备可证明偏差韧性的无需训练的联邦去学习
为了保护训练数据的隐私权,研究提出了一种适用于联邦学习的定制反学习方法,Fast-FedUL,它能够完全消除重新训练的需要,并通过对目标客户在每一轮中对全局模型的影响进行细致分析,开发出一种算法系统地从训练模型中移除目标客户的影响,而保留非 - IJCAI学习中的遗忘:高效的联邦机器遗忘方法
近年来,联邦学习作为一种分布式机器学习范式备受关注。为了促进被遗忘权的实施,联邦机器遗忘(FMU)的概念也应运而生。然而,目前的 FMU 方法往往涉及额外的耗时步骤,并且可能无法提供全面的遗忘能力,这使得它们在真实的联邦学习场景中不太实用。 - ICML对于每个 (文本序列) 的独立性:改进大型语言模型中的记忆数据遗忘
通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法,本研究提供了关于 LLMs 隐私保护和遗忘的新视角,并在大量 NLP 任务上进行了全面的性能评估。
- 大型语言模型的位移遗忘
用于黑盒大型语言模型的偏移学习框架,通过对比一对较小模型的逻辑斯谛,有效地遗忘目标数据,同时在一般范围任务上保持类似或甚至更强的性能,并有效地整合不同的遗忘算法。
- 不精确的遗忘需要更谨慎的评估以避免虚假隐私感
开发用于消除模型训练影响的非学习技术,研究了基于反向学习设置的成员推断攻击 (U-MIA),发现不同类别的 U-MIA 强度与基于视觉和语言模型的现有非学习技术所提供的隐私保护高度相关,同时揭示了几种非学习算法对不同训练示例的潜在漏洞,以及 - 大型语言模型通过自蒸馏和有意识想象进行非记忆化
使用一种名为 “刻意想象” 的新方法,在大型语言模型(LLM)的条件下有效地取消已学习的文本,并在进行生成任务和自然语言理解(NLU)任务时保留其功能,从而解决 LLM 中私密和敏感数据的挑战。
- 软提示威胁:通过嵌入空间在开源 LLMs 中攻击安全对齐和遗忘
该研究探讨了开源 LLM 模型中潜在的敌对攻击方法,发现利用嵌入空间进行攻击可以更高效地触发危险行为,并提出了一种新的威胁模型,展示了嵌入空间攻击从正在学习和删除的 LLM 模型中提取已删除信息的能力。
- 参数调整免费的数据输入错误去学习,自适应选择性突触抽搁
数据输入作为机器学习流程的基本组成部分,常常会引入标签错误。本文通过引入自适应选择性突触减弱(ASSD)方法,解决了无法确定错误数据的正确标签的数据输入错误情况,并在供应链延迟预测问题中使用真实数据进行了性能验证,表明 ASSD 在一般的非 - 通过李普希茨正则化实现规模化的零样本机器遗忘
在 AI 和数据法规的合规要求下,从训练的机器学习模型中忘记私人或受版权保护的信息变得越来越重要。在本研究中,我们解决了零样本遗忘的挑战,即一个遗忘算法必须能够在只有训练好的模型和需要被遗忘的数据的情况下移除数据。基于 Lipschitz - TOFU:一项针对 LLMs 的虚构遗忘任务
利用大规模语言模型训练数据时,即使属敏感或私密的数据也是可以被记忆和复制的,引发了法律和伦理方面的担忧。为了保护个人数据,我们提出了 TOFU(Task of Fictitious Unlearning)作为一个基准,以帮助深入理解遗忘的过 - 关于会话推荐中遗忘机制的有效性研究
我们提出了 SRU,这是一个基于会话的推荐系统的遗忘框架,它能够实现高效的遗忘、准确的推荐性能和改善基于会话的推荐中的遗忘效果。我们通过将训练会话分成不同的子模型,并利用基于注意力的聚合层来融合隐藏状态,提出了三种额外数据删除策略,并提出了 - GraphGuard:图神经网络中检测和对抗训练数据滥用
GraphGuard 是一个无需训练数据的方法,通过使用具有电离辐射特性的数据进行成员推断,提高成员和非成员数据分布的可区分性,从而在不依赖原始数据的情况下检测并通过有针对性的遗忘来减轻图数据滥用的影响。
- 公平 SISA:集成后处理以提高 LLMs 的公平性
这篇论文研究了大型语言模型(LLMs)的反学习和公平性之间的相互作用,特别关注了一种称为 SISA 的流行反学习框架的性能 - 公平性权衡,并提出了后处理偏差缓解技术用于 SISA 生成的模型集合,证明其中的一种方法是模型集合的最佳公平预测 - 大型语言模型遗忘
我们研究了如何在大型语言模型中执行遗忘,即忘记不受欢迎的行为,并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益:(1)删除有害回应,(2)根据要求删除受版权保护的内容,以及(3)消除幻觉。我们的工作是探索语言模型遗忘中首个实现 - 谁是哈利・波特?在 LLMs 中的近似遗忘
我们提出了一种新的技术来从 LLM 中遗忘训练数据的子集,而无需重新训练它,该技术在 Harry Potter 相关内容的生成或召回方面具有有效的能力。这是首篇呈现生成式语言模型中遗忘有效技术的论文。
- ICML用于生成模型的一次性遗忘的梯度手术
通过操纵梯度并将其投影到被保留梯度的法向平面上,我们提出了一种简单但有效的方法来移除深度生成模型中数据的影响。我们的方法不受移除样本统计的限制,在去学习生成模型方面优于现有基线,并首次提供了理论分析。