RWKU：大规模语言模型的真实世界知识遗忘基准测试

Jun, 2024

RWKU：大规模语言模型的真实世界知识遗忘基准测试

RWKU: Benchmarking Real-World Knowledge Unlearning for Large Language Models

Zhuoran Jin, Pengfei Cao, Chenhao Wang, Zhitao He, Hongbang Yuan...

TL;DR机器遗忘是一种有效地通过事后修改模型来消除特定知识的方法，在本文中，我们提出了一个用于大型语言模型（LLMs）遗忘的真实世界知识遗忘基准（RWKU），该基准考虑了任务设置、知识来源和评估框架等关键因素。

Abstract

large language models (LLMs) inevitably memorize sensitive, copyrighted, and harmful knowledge from the training corpus; therefore, it is crucial to erase this knowledge from the models. Machine unlearning is a promising solution for efficiently removing specific knowledge by post hoc

large language models knowledge unlearning benchmark real-world famous people evaluation framework

发现论文，激发创造

评估 LLMs 中强化遗忘的八种方法

通过综合测试现有评估方法，我们对 Eldan and Russinovich（2023）的 “Who's Harry Potter” 模型进行了严格评估，发现它在 “熟悉度” 度量下表现良好，可靠地提取大量超越基准的知识，并与原始模型在 Harry Potter 问答任务和潜在知识表示等方面具有可比性，同时存在相关领域的副作用遗忘，结果强调了全面的遗忘评估的重要性，避免使用临时指标。

Feb, 2024

LLM 知识弃除：任务、方法与挑战

近年来，大型语言模型（LLM）在自然语言处理领域引起了一种新的研究范式。然而，这些模型保留错误或甚至有害知识的潜力带来了恶意应用的风险。为了使这些模型能够广泛应用，解决这个问题并将其转化为纯粹的助手是至关重要的。为此，我们提供了一份关于 LLM 时代的知识遗忘的综述。我们从正式定义知识遗忘问题并与相关工作区分开始。随后，我们将现有的知识遗忘方法分为三类：基于参数优化、参数合并和上下文学习的方法，并介绍这些方法的细节。我们还介绍了现有方法中使用的评估数据集，并最后总结了这份综述中存在的挑战和未来的方向。

Nov, 2023

大型语言模型的机器遗忘思考

探索机器遗忘（MU）在大型语言模型（LLMs）领域中的应用，称为 LLM 遗忘。通过维持基本知识生成的完整性且不影响非因果相关信息，旨在消除不良数据影响（例如敏感或非法信息）及相关模型能力，成为 LLMs 生命周期管理中的重要元素，潜在地作为开发生成式 AI 的基础，既安全、安全、可信，又无需完全重新训练的资源高效方法。从概念制定、方法论、度量和应用等方面研究 LLMs 遗忘领域。重点突出现有 LLM 遗忘研究中常被忽视的方面，例如遗忘范围、数据模型交互和多方面功效评估。并在 LLM 遗忘与模型编辑、影响函数、模型解释、对抗训练和强化学习等相关领域之间建立联系。此外，我们还概述了 LLM 遗忘的有效评估框架，并探讨了其在版权和隐私保护以及降低社会技术危害方面的应用。

Feb, 2024

基于逆 KL 散度的知识蒸馏方法：在大型语言模型中消除个人信息

透过 RKLD 算法，我们在实验中达到了显著的遗忘质量并有效地维护了模型的实用性。

Jun, 2024

大规模知识洗涤

在大规模语言模型中，我们介绍 Large Scale Washing（LAW）方法，通过更新解码器中的 MLP 层进行知识净化，从而忘记目标知识并保持推理能力。

May, 2024

大型语言模型中的机器遗忘

机器遗忘是人工智能中的一个新领域，专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战，特别是在大型语言模型（LLM）的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法，以便符合伦理、隐私和安全标准，并目标性地删除或修改 LLM 中的学习信息，以解决有害回应和版权问题。

May, 2024

通过机器遗忘来避免版权侵权

在这篇论文中，我们提出了一种稳定的序列遗忘（SSU）框架，该框架使用任务向量，通过引入额外的随机标签损失和应用基于梯度的权重显著性映射，以更稳定的方式在不同的时间步骤中从 LLMs 中删除受版权保护的内容，实验证明 SSU 在遗忘效果和保持模型的一般知识之间取得了良好的平衡。

Jun, 2024

数据擦除的前沿：大型语言模型的机器取消学习

大型语言模型开创了人工智能的进展，然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生，针对大型语言模型提供了一种选择性丢弃某些数据的技术，以解决隐私、道德和法律方面的挑战，无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究，介绍了针对文本数据和分类数据的遗忘方法，并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性，指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题，突出了机器遗忘在推动负责任、道德的人工智能方面的作用。

Mar, 2024

语言模型中知识退化以减少隐私风险

本研究提出知识遗忘（knowledge unlearning）作为一种减少预训练语言模型（pretrained language models）隐私风险的方法，通过对目标标记序列进行梯度上升来遗忘它们，并发现顺序遗忘优于尝试一次性遗忘所有数据，对于特定领域的数据，知识遗忘具有更强的实证隐私保证，同时更加高效和鲁棒。

Oct, 2022

传统模型与大型语言模型的机器遗忘：简要调查

通过提供深入探讨机器消遣技术的定义、分类和评价标准，以及不同环境下的挑战和解决方案，本文对传统模型和大型语言模型上的消遣进行分类和研究，提出了评估消遣效果和效率的方法以及性能测量标准。本文揭示了当前消遣技术的局限性，并强调了全面的消遣评估的重要性，以避免随意的遗忘。该调查不仅总结了消遣技术的关键概念，还指出了其突出问题和未来研究的可行方向，为该领域的学者提供了有价值的指导。

Apr, 2024