面向大型语言模型的鲁棒且成本高效的知识遗忘

Aug, 2024

面向大型语言模型的鲁棒且成本高效的知识遗忘

Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models

Sungmin Cha, Sungjun Cho, Dasol Hwang, Moontae Lee

TL;DR本研究解决了大型语言模型在处理敏感数据时面临的隐私和版权风险，提出了有效的知识遗忘框架。通过设计反向铰链损失和基于Fisher加权的低秩近似初始化方法，显著提高了模型遗忘能力的效率与知识保留，同时降低了计算成本。

Abstract

Large Language Models (LLMs) have demonstrated strong reasoning and memorization capabilities via pretraining on massive textual corpora. However, training LLMs on human-written text entails significant risk of Privacy<

发现论文，激发创造

大型语言模型遗忘

我们研究了如何在大型语言模型中执行遗忘，即忘记不受欢迎的行为，并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益：（1）删除有害回应，（2）根据要求删除受版权保护的内容，以及（3）消除幻觉。我们的工作是探索语言模型遗忘中首个实现，并在设置、目标和评估方面都是先驱。我们还表明，如果从业者只有有限的资源，优先级是停止生成不受欢迎的输出而不是生成理想的输出，那么遗忘尤其吸引人。尽管我们只具有负样本，但我们的消融研究显示，遗忘仍可以在仅使用2％的计算时间时实现更好的对齐性能比RLHF。

Oct, 2023

遗忘您想遗忘的内容：针对LLMs的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与transformers结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

通过机器遗忘实现更安全的大型语言模型

通过选择性知识否定消除（SKU）框架，我们可以有效地识别和去除大语言模型中的有害知识，同时保持模型对正常提示的有效性。

Feb, 2024

预训练大型语言模型的机器消除学习

通过对预训练大语言模型的机器遗忘进行综合研究，我们探讨了‘被遗忘权’的概念，重点关注了尚未充分研究的预训练模型领域。通过对来自arXiv、书籍和GitHub的精选数据集进行严格评估，我们建立了机器遗忘性能的鲁棒基准，并证明这些方法的计算效率比重新训练高出10^5倍。我们的研究结果表明，在分布数据上将梯度上升与梯度下降相结合可以提高超参数的稳健性。此外，我们还提供了高效超参数调整的详细指南。我们的发现推动了关于道德AI实践的讨论，为预训练大语言模型的机器遗忘机制提供了实质性的见解，并强调了负责任的AI发展的潜力。

Feb, 2024

大型语言模型的位移遗忘

用于黑盒大型语言模型的偏移学习框架，通过对比一对较小模型的逻辑斯谛，有效地遗忘目标数据，同时在一般范围任务上保持类似或甚至更强的性能，并有效地整合不同的遗忘算法。

Apr, 2024

大型语言模型中的机器遗忘

机器遗忘是人工智能中的一个新领域，专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战，特别是在大型语言模型（LLM）的背景下。本文介绍了一种使用梯度上升算法对LLM进行对齐的方法，以便符合伦理、隐私和安全标准，并目标性地删除或修改LLM中的学习信息，以解决有害回应和版权问题。

May, 2024

控制中的遗忘：对大型语言模型遗忘的现实应用评估

我们提出了衡量实际效能的一组度量标准，并提出了几种控制方法以规范过多的遗忘。经过在已建立的基准测试上的实验分析，我们得出结论，基于梯度上升的方法在实践中并不完美，强烈的遗忘会以牺牲模型实用性的代价为代价。我们得出结论，朝着实际和有效的大型语言模型遗忘还有很长的路要走，并需要在这个领域投入更多的努力。

Jun, 2024

SNAP: 大型语言模型中选择性知识的去学习与负指令

本研究提出SNAP框架，通过训练带有负面指令的大型语言模型（LLMs）生成抹除的回复，并应用新颖的Wasserstein正则化方法，成功地选择性地遗忘指定的信息，保留原始LLM能力。

Jun, 2024

有效移除大型语言模型中的知识的UNLEARN方法

本文解决了在不重新训练模型的情况下有效移除大型语言模型中特定知识（如私密或专有信息）的难题。提出的UNLEARN方法通过子空间技术，能够实现对知识的精确移除，同时保持其他知识的性能。实验结果显示，该方法能够忘记96%的目标知识，并且性能保持在原模型的2.5%之内，显著优于之前的最先进技术。

Aug, 2024

朝着鲁棒的知识遗忘：一种用于评估和提高大语言模型遗忘鲁棒性的对抗框架

本研究解决了现有大语言模型在知识遗忘过程中容易受到对抗性查询攻击的问题。我们提出了动态遗忘攻击(DUA)框架，对模型的脆弱性进行评估，同时提出了潜在对抗遗忘(LAU)框架，采用最小-最大优化方法提高遗忘过程的鲁棒性。实验表明，我们的方法显著提升了遗忘有效性超过53.5%，有效抵御了知识再显现。

Aug, 2024