遗忘还是不遗忘？针对大型语言模型的实用知识消除

Jul, 2024

遗忘还是不遗忘？针对大型语言模型的实用知识消除

To Forget or Not? Towards Practical Knowledge Unlearning for Large Language Models

Bozhong Tian, Xiaozhuan Liang, Siyuan Cheng, Qingbin Liu, Mengru Wang...

TL;DRLLM上的大型语言模型锤炼了丰富的文献，不可避免地保留了敏感数据，如个人隐私信息和受版权保护的材料。本研究旨在评估目前的去学习过程是否会无意中抹掉重要的知识，并提出了一种名为MemFlex的简单而有效的方法，该方法利用梯度信息来精确地针对和去学习敏感参数。实验证明MemFlex在LLM的精确知识去学习和一般知识保留方面优于现有方法。

Abstract

large language models (llms) trained on extensive corpora inevitably retain sensitive data, such as personal privacy information and copyrighted material. Recent advancements in →

发现论文，激发创造

上下文中的遗忘：语言模型作为少样本遗忘器

提出了一种称为“In-Context Unlearning”的LLM的反学习方法，通过在推理时提供具有翻转标签和额外正确标记的实例作为输入，有效地从训练集中删除特定信息，同时保持与最先进的反学习方法相媲美甚至超过其性能水平。

Oct, 2023

大型语言模型遗忘

我们研究了如何在大型语言模型中执行遗忘，即忘记不受欢迎的行为，并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益：（1）删除有害回应，（2）根据要求删除受版权保护的内容，以及（3）消除幻觉。我们的工作是探索语言模型遗忘中首个实现，并在设置、目标和评估方面都是先驱。我们还表明，如果从业者只有有限的资源，优先级是停止生成不受欢迎的输出而不是生成理想的输出，那么遗忘尤其吸引人。尽管我们只具有负样本，但我们的消融研究显示，遗忘仍可以在仅使用2％的计算时间时实现更好的对齐性能比RLHF。

Oct, 2023

遗忘您想遗忘的内容：针对LLMs的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与transformers结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

TOFU：一项针对LLMs的虚构遗忘任务

利用大规模语言模型训练数据时，即使属敏感或私密的数据也是可以被记忆和复制的，引发了法律和伦理方面的担忧。为了保护个人数据，我们提出了TOFU（Task of Fictitious Unlearning）作为一个基准，以帮助深入理解遗忘的过程。通过提供一套综合指标，我们评估了现有遗忘算法的基准结果，并指出需要继续努力开发能够真正使模型忘却目标数据的遗忘方法。

Jan, 2024

数据擦除的前沿：大型语言模型的机器取消学习

大型语言模型开创了人工智能的进展，然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生，针对大型语言模型提供了一种选择性丢弃某些数据的技术，以解决隐私、道德和法律方面的挑战，无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究，介绍了针对文本数据和分类数据的遗忘方法，并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性，指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题，突出了机器遗忘在推动负责任、道德的人工智能方面的作用。

Mar, 2024

传统模型与大型语言模型的机器遗忘：简要调查

通过提供深入探讨机器消遣技术的定义、分类和评价标准，以及不同环境下的挑战和解决方案，本文对传统模型和大型语言模型上的消遣进行分类和研究，提出了评估消遣效果和效率的方法以及性能测量标准。本文揭示了当前消遣技术的局限性，并强调了全面的消遣评估的重要性，以避免随意的遗忘。该调查不仅总结了消遣技术的关键概念，还指出了其突出问题和未来研究的可行方向，为该领域的学者提供了有价值的指导。

Apr, 2024

大型语言模型的位移遗忘

用于黑盒大型语言模型的偏移学习框架，通过对比一对较小模型的逻辑斯谛，有效地遗忘目标数据，同时在一般范围任务上保持类似或甚至更强的性能，并有效地整合不同的遗忘算法。

Apr, 2024

逆转遗忘-保留目标：基于逻辑差异的高效LLM最佳模型即时舍弃框架

通过介绍一种新的遗忘框架Unlearning from Logit Difference（ULD），该方法通过计算目标模型与助理模型之间的逻辑差异来实现忘记目标文档和保留其他知识的目标，从而解决了LLM遗忘方法中的两个挑战问题（退化输出和灾难性遗忘），大幅提高了训练效率。

Jun, 2024

MUSE: 机器卸载六方面评估用于语言模型

利用MUSE标准来综合评估了八个七十亿参数的语言模型在删除哈利·波特书籍和新闻文章的过程中，发现现有的算法在阻止严重的隐私泄露方面有限，对模型的技术功用造成退化，并且不能持续支持连续的取消学习请求或大规模内容删除。

Jul, 2024

有效移除大型语言模型中的知识的UNLEARN方法

本文解决了在不重新训练模型的情况下有效移除大型语言模型中特定知识（如私密或专有信息）的难题。提出的UNLEARN方法通过子空间技术，能够实现对知识的精确移除，同时保持其他知识的性能。实验结果显示，该方法能够忘记96%的目标知识，并且性能保持在原模型的2.5%之内，显著优于之前的最先进技术。

Aug, 2024