拆分、遗忘、合并：通过数据属性提升 LLM 中的更有效遗忘

Jun, 2024

拆分、遗忘、合并：通过数据属性提升 LLM 中的更有效遗忘

Split, Unlearn, Merge: Leveraging Data Attributes for More Effective Unlearning in LLMs

Swanand Ravindra Kadhe, Farhan Ahmed, Dennis Wei, Nathalie Baracaldo, Inkit Padhi

TL;DR大型语言模型 (LLMs) 存在社会和伦理风险，如生成有害语言或促进危险知识的恶意使用。本文提出了 “SPlit, UNlearn, MerGE” (SPUNGE) 框架，可与任何去学习方法结合以增强其效果。我们实验证明，SPUNGE 在现代化大型语言模型上显著改进了两种最新的去学习方法的性能，同时保持了其在标准学术基准上的通用能力。

Abstract

large language models (LLMs) have shown to pose social and ethical risks such as generating toxic language or facilitating malicious use of hazardous knowledge. →

large language models machine unlearning toxic language hazardous knowledge split, unlearn, merge

发现论文，激发创造

大型语言模型的机器遗忘思考

探索机器遗忘（MU）在大型语言模型（LLMs）领域中的应用，称为 LLM 遗忘。通过维持基本知识生成的完整性且不影响非因果相关信息，旨在消除不良数据影响（例如敏感或非法信息）及相关模型能力，成为 LLMs 生命周期管理中的重要元素，潜在地作为开发生成式 AI 的基础，既安全、安全、可信，又无需完全重新训练的资源高效方法。从概念制定、方法论、度量和应用等方面研究 LLMs 遗忘领域。重点突出现有 LLM 遗忘研究中常被忽视的方面，例如遗忘范围、数据模型交互和多方面功效评估。并在 LLM 遗忘与模型编辑、影响函数、模型解释、对抗训练和强化学习等相关领域之间建立联系。此外，我们还概述了 LLM 遗忘的有效评估框架，并探讨了其在版权和隐私保护以及降低社会技术危害方面的应用。

Feb, 2024

大型语言模型中的机器遗忘

机器遗忘是人工智能中的一个新领域，专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战，特别是在大型语言模型（LLM）的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法，以便符合伦理、隐私和安全标准，并目标性地删除或修改 LLM 中的学习信息，以解决有害回应和版权问题。

May, 2024

大型语言模型中的软提示对取消学习的影响

通过在训练数据的子集上实现遗忘的相对较轻量级替代方案，我们的研究框架 SPUL 能够显著改善使用 LLMs 进行文本分类时效用和遗忘之间的平衡。

Jun, 2024

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

通过机器遗忘实现更安全的大型语言模型

通过选择性知识否定消除（SKU）框架，我们可以有效地识别和去除大语言模型中的有害知识，同时保持模型对正常提示的有效性。

Feb, 2024

数据擦除的前沿：大型语言模型的机器取消学习

大型语言模型开创了人工智能的进展，然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生，针对大型语言模型提供了一种选择性丢弃某些数据的技术，以解决隐私、道德和法律方面的挑战，无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究，介绍了针对文本数据和分类数据的遗忘方法，并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性，指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题，突出了机器遗忘在推动负责任、道德的人工智能方面的作用。

Mar, 2024

通过机器遗忘来避免版权侵权

在这篇论文中，我们提出了一种稳定的序列遗忘（SSU）框架，该框架使用任务向量，通过引入额外的随机标签损失和应用基于梯度的权重显著性映射，以更稳定的方式在不同的时间步骤中从 LLMs 中删除受版权保护的内容，实验证明 SSU 在遗忘效果和保持模型的一般知识之间取得了良好的平衡。

Jun, 2024

传统模型与大型语言模型的机器遗忘：简要调查

通过提供深入探讨机器消遣技术的定义、分类和评价标准，以及不同环境下的挑战和解决方案，本文对传统模型和大型语言模型上的消遣进行分类和研究，提出了评估消遣效果和效率的方法以及性能测量标准。本文揭示了当前消遣技术的局限性，并强调了全面的消遣评估的重要性，以避免随意的遗忘。该调查不仅总结了消遣技术的关键概念，还指出了其突出问题和未来研究的可行方向，为该领域的学者提供了有价值的指导。

Apr, 2024

模型稀疏化可简化机器遗忘

该研究介绍了一种通过模型稀疏化实现机器遗忘的方法，通过剪枝模型的权重来提高近似遗忘的性能，开发了两种新的稀疏感知的遗忘元方案，“先剪枝再遗忘” 和 “稀疏感知遗忘”，在不同的情景下取得了一致的遗忘效果提高。

Apr, 2023

每种语言都重要：多语言 LLMs 的学习和遗忘

研究探究了有害信息在多语种大型语言模型中的传播，并评估了各种反学习方法的有效性。我们证明了无论以哪种语言出现，一旦通过训练数据引入虚假信息到这些模型中，它可以在不同语言之间传播，从而损害生成内容的完整性和可靠性。我们的发现揭示了标准反学习技术通常只关注英文数据，无法有效减轻多语种环境中有害内容的传播，并可能无意中在各种语言之间加强有害内容。我们展示了只有同时解决有害数据的英文和原始语言中的有害回应，我们才能有效地消除所有语言的生成。这强调了考虑现代多语种大型语言模型的多语言特性来增强其安全性和可靠性的全面反学习策略的重要性。

Jun, 2024