大规模知识洗涤

May, 2024

Large Scale Knowledge Washing

Yu Wang, Ruihan Wu, Zexue He, Xiusi Chen, Julian McAuley

TL;DR在大规模语言模型中，我们介绍 Large Scale Washing（LAW）方法，通过更新解码器中的 MLP 层进行知识净化，从而忘记目标知识并保持推理能力。

Abstract

large language models show impressive abilities in memorizing world knowledge, which leads to concerns regarding memorization of private information, toxic or sensitive knowledge, and copyrighted content. We introduce the problem of Large Scale →

large language models knowledge washing unlearning methods mlp layers reasoning ability

发现论文，激发创造

大型语言模型中的机器遗忘

机器遗忘是人工智能中的一个新领域，专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战，特别是在大型语言模型（LLM）的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法，以便符合伦理、隐私和安全标准，并目标性地删除或修改 LLM 中的学习信息，以解决有害回应和版权问题。

May, 2024

LLM 知识弃除：任务、方法与挑战

近年来，大型语言模型（LLM）在自然语言处理领域引起了一种新的研究范式。然而，这些模型保留错误或甚至有害知识的潜力带来了恶意应用的风险。为了使这些模型能够广泛应用，解决这个问题并将其转化为纯粹的助手是至关重要的。为此，我们提供了一份关于 LLM 时代的知识遗忘的综述。我们从正式定义知识遗忘问题并与相关工作区分开始。随后，我们将现有的知识遗忘方法分为三类：基于参数优化、参数合并和上下文学习的方法，并介绍这些方法的细节。我们还介绍了现有方法中使用的评估数据集，并最后总结了这份综述中存在的挑战和未来的方向。

Nov, 2023

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

RWKU：大规模语言模型的真实世界知识遗忘基准测试

机器遗忘是一种有效地通过事后修改模型来消除特定知识的方法，在本文中，我们提出了一个用于大型语言模型（LLMs）遗忘的真实世界知识遗忘基准（RWKU），该基准考虑了任务设置、知识来源和评估框架等关键因素。

Jun, 2024

大型语言模型的知识清洗

我们探索了一种知识消毒方法，用于减轻与大型语言模型（LLMs）相关的隐私问题。我们的方法通过微调模型，在查询特定信息时，促使其生成无害回答，如 “我不知道”。实验证实，我们的简单方法不仅最小化了特定知识泄漏，还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御，并减少了产生幻觉等有害内容的排放。

Sep, 2023

语言模型中知识退化以减少隐私风险

本研究提出知识遗忘（knowledge unlearning）作为一种减少预训练语言模型（pretrained language models）隐私风险的方法，通过对目标标记序列进行梯度上升来遗忘它们，并发现顺序遗忘优于尝试一次性遗忘所有数据，对于特定领域的数据，知识遗忘具有更强的实证隐私保证，同时更加高效和鲁棒。

Oct, 2022

基于逆 KL 散度的知识蒸馏方法：在大型语言模型中消除个人信息

透过 RKLD 算法，我们在实验中达到了显著的遗忘质量并有效地维护了模型的实用性。

Jun, 2024

通过机器遗忘实现更安全的大型语言模型

通过选择性知识否定消除（SKU）框架，我们可以有效地识别和去除大语言模型中的有害知识，同时保持模型对正常提示的有效性。

Feb, 2024

大型语言模型的机器遗忘思考

探索机器遗忘（MU）在大型语言模型（LLMs）领域中的应用，称为 LLM 遗忘。通过维持基本知识生成的完整性且不影响非因果相关信息，旨在消除不良数据影响（例如敏感或非法信息）及相关模型能力，成为 LLMs 生命周期管理中的重要元素，潜在地作为开发生成式 AI 的基础，既安全、安全、可信，又无需完全重新训练的资源高效方法。从概念制定、方法论、度量和应用等方面研究 LLMs 遗忘领域。重点突出现有 LLM 遗忘研究中常被忽视的方面，例如遗忘范围、数据模型交互和多方面功效评估。并在 LLM 遗忘与模型编辑、影响函数、模型解释、对抗训练和强化学习等相关领域之间建立联系。此外，我们还概述了 LLM 遗忘的有效评估框架，并探讨了其在版权和隐私保护以及降低社会技术危害方面的应用。

Feb, 2024

数据擦除的前沿：大型语言模型的机器取消学习

大型语言模型开创了人工智能的进展，然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生，针对大型语言模型提供了一种选择性丢弃某些数据的技术，以解决隐私、道德和法律方面的挑战，无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究，介绍了针对文本数据和分类数据的遗忘方法，并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性，指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题，突出了机器遗忘在推动负责任、道德的人工智能方面的作用。

Mar, 2024