有效移除大型语言模型中的知识的UNLEARN方法

Aug, 2024

有效移除大型语言模型中的知识的UNLEARN方法

UNLEARN Efficient Removal of Knowledge in Large Language Models

Tyler Lizzo, Larry Heck

TL;DR本文解决了在不重新训练模型的情况下有效移除大型语言模型中特定知识（如私密或专有信息）的难题。提出的UNLEARN方法通过子空间技术，能够实现对知识的精确移除，同时保持其他知识的性能。实验结果显示，该方法能够忘记96%的目标知识，并且性能保持在原模型的2.5%之内，显著优于之前的最先进技术。

Abstract

Given the prevalence of Large Language Models (LLMs) and the prohibitive cost of training these models from scratch, dynamically forgetting specific knowledge e.g., private or proprietary, without retraining the model has become an important capability. This paper proposes a novel meth

发现论文，激发创造

上下文中的遗忘：语言模型作为少样本遗忘器

提出了一种称为“In-Context Unlearning”的LLM的反学习方法，通过在推理时提供具有翻转标签和额外正确标记的实例作为输入，有效地从训练集中删除特定信息，同时保持与最先进的反学习方法相媲美甚至超过其性能水平。

Oct, 2023

大型语言模型遗忘

我们研究了如何在大型语言模型中执行遗忘，即忘记不受欢迎的行为，并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益：（1）删除有害回应，（2）根据要求删除受版权保护的内容，以及（3）消除幻觉。我们的工作是探索语言模型遗忘中首个实现，并在设置、目标和评估方面都是先驱。我们还表明，如果从业者只有有限的资源，优先级是停止生成不受欢迎的输出而不是生成理想的输出，那么遗忘尤其吸引人。尽管我们只具有负样本，但我们的消融研究显示，遗忘仍可以在仅使用2％的计算时间时实现更好的对齐性能比RLHF。

Oct, 2023

遗忘您想遗忘的内容：针对LLMs的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与transformers结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

通过机器遗忘实现更安全的大型语言模型

通过选择性知识否定消除（SKU）框架，我们可以有效地识别和去除大语言模型中的有害知识，同时保持模型对正常提示的有效性。

Feb, 2024

预训练大型语言模型的机器消除学习

通过对预训练大语言模型的机器遗忘进行综合研究，我们探讨了‘被遗忘权’的概念，重点关注了尚未充分研究的预训练模型领域。通过对来自arXiv、书籍和GitHub的精选数据集进行严格评估，我们建立了机器遗忘性能的鲁棒基准，并证明这些方法的计算效率比重新训练高出10^5倍。我们的研究结果表明，在分布数据上将梯度上升与梯度下降相结合可以提高超参数的稳健性。此外，我们还提供了高效超参数调整的详细指南。我们的发现推动了关于道德AI实践的讨论，为预训练大语言模型的机器遗忘机制提供了实质性的见解，并强调了负责任的AI发展的潜力。

Feb, 2024

大型语言模型的位移遗忘

用于黑盒大型语言模型的偏移学习框架，通过对比一对较小模型的逻辑斯谛，有效地遗忘目标数据，同时在一般范围任务上保持类似或甚至更强的性能，并有效地整合不同的遗忘算法。

Apr, 2024

控制中的遗忘：对大型语言模型遗忘的现实应用评估

我们提出了衡量实际效能的一组度量标准，并提出了几种控制方法以规范过多的遗忘。经过在已建立的基准测试上的实验分析，我们得出结论，基于梯度上升的方法在实践中并不完美，强烈的遗忘会以牺牲模型实用性的代价为代价。我们得出结论，朝着实际和有效的大型语言模型遗忘还有很长的路要走，并需要在这个领域投入更多的努力。

Jun, 2024

RWKU：大规模语言模型的真实世界知识遗忘基准测试

机器遗忘是一种有效地通过事后修改模型来消除特定知识的方法，在本文中，我们提出了一个用于大型语言模型（LLMs）遗忘的真实世界知识遗忘基准（RWKU），该基准考虑了任务设置、知识来源和评估框架等关键因素。

Jun, 2024

遗忘还是不遗忘？针对大型语言模型的实用知识消除

LLM上的大型语言模型锤炼了丰富的文献，不可避免地保留了敏感数据，如个人隐私信息和受版权保护的材料。本研究旨在评估目前的去学习过程是否会无意中抹掉重要的知识，并提出了一种名为MemFlex的简单而有效的方法，该方法利用梯度信息来精确地针对和去学习敏感参数。实验证明MemFlex在LLM的精确知识去学习和一般知识保留方面优于现有方法。

Jul, 2024

面向大型语言模型的鲁棒且成本高效的知识遗忘

本研究解决了大型语言模型在处理敏感数据时面临的隐私和版权风险，提出了有效的知识遗忘框架。通过设计反向铰链损失和基于Fisher加权的低秩近似初始化方法，显著提高了模型遗忘能力的效率与知识保留，同时降低了计算成本。

Aug, 2024