负面偏好优化：从灾难性崩溃到有效的遗忘

Apr, 2024

负面偏好优化：从灾难性崩溃到有效的遗忘

Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning

Ruiqi Zhang, Licong Lin, Yu Bai, Song Mei

TL;DR大型语言模型（LLMs）在预训练过程中经常记忆敏感、私人或受版权保护的数据。LLM unlearning 旨在消除预训练模型中不需要的数据的影响，同时保留模型在其他任务上的效用。本文提出了一种简单的基于对齐的方法 ——Negative Preference Optimization（NPO），可以高效有效地 unlearn 目标数据集。通过在合成数据和基准 TOFU 数据集上的实验证明，基于 NPO 的方法在 unlearn 不需要的数据和保持模型效用之间取得了更好的平衡。我们还观察到，与输出通常为无意义的 GA-based 方法相比，基于 NPO 的方法生成更有意义的输出。值得注意的是，在 TOFU 上，基于 NPO 的方法在忘记 50%（或更多）训练数据方面取得了合理的 unlearning 结果，而现有的方法已经在忘记 10% 的训练数据方面存在困难。

Abstract

Large Language Models (LLMs) often memorize sensitive, private, or copyrighted data during pre-training. llm unlearning aims to eliminate the influence of undesirable data from the pre-trained model while preserving the model's utilities on other tasks. Several practical methods have r

large language models (llms)llm unlearning negative preference optimization (npo)gradient ascent (ga)catastrophic collapse

发现论文，激发创造

大型语言模型中的机器遗忘

机器遗忘是人工智能中的一个新领域，专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战，特别是在大型语言模型（LLM）的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法，以便符合伦理、隐私和安全标准，并目标性地删除或修改 LLM 中的学习信息，以解决有害回应和版权问题。

May, 2024

通过遗忘减缓语言模型中的社会偏见

通过研究两种取消学习方法，本文在减少社会偏见时通过定量和定性分析实证表明，基于任务向量的否定方法在保持性能和困惑度较低的情况下优于分区对比梯度取消学习方法。在 LLaMA-27B 上，通过任务向量的否定方法将偏见分数降低了 11.8%。

Jun, 2024

SNAP: 大型语言模型中选择性知识的去学习与负指令

本研究提出 SNAP 框架，通过训练带有负面指令的大型语言模型（LLMs）生成抹除的回复，并应用新颖的 Wasserstein 正则化方法，成功地选择性地遗忘指定的信息，保留原始 LLM 能力。

Jun, 2024

大型语言模型遗忘

我们研究了如何在大型语言模型中执行遗忘，即忘记不受欢迎的行为，并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益：（1）删除有害回应，（2）根据要求删除受版权保护的内容，以及（3）消除幻觉。我们的工作是探索语言模型遗忘中首个实现，并在设置、目标和评估方面都是先驱。我们还表明，如果从业者只有有限的资源，优先级是停止生成不受欢迎的输出而不是生成理想的输出，那么遗忘尤其吸引人。尽管我们只具有负样本，但我们的消融研究显示，遗忘仍可以在仅使用 2％的计算时间时实现更好的对齐性能比 RLHF。

Oct, 2023

通过对语言模型中的序列遗忘进行近似优化参数保护隐私

我们提出了一种名为 “POP” 的新型遗忘方法，通过对参数应用最佳梯度更新，从预训练的语言模型中有效地遗忘目标令牌序列，实现隐私保护，具有出色的遗忘后保留性能，优于现有技术水平。

Jun, 2024

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

语言模型中知识退化以减少隐私风险

本研究提出知识遗忘（knowledge unlearning）作为一种减少预训练语言模型（pretrained language models）隐私风险的方法，通过对目标标记序列进行梯度上升来遗忘它们，并发现顺序遗忘优于尝试一次性遗忘所有数据，对于特定领域的数据，知识遗忘具有更强的实证隐私保证，同时更加高效和鲁棒。

Oct, 2022

对于每个 (文本序列) 的独立性：改进大型语言模型中的记忆数据遗忘

通过新的度量衡、对抗攻击以及基于梯度上升和任务算术的两种新的遗忘方法，本研究提供了关于 LLMs 隐私保护和遗忘的新视角，并在大量 NLP 任务上进行了全面的性能评估。

May, 2024

上下文学习中的不可学习算法

机器去学习是一项理想的操作，然而实现精确的去学习是具有挑战性或低效的，这篇论文关注于大型语言模型的任务适应阶段的高效去学习方法，并提供了一种算法来选择少量训练样本进行任务适应，最终得出在上下文学习方面比微调方法更有优势的结论。

Feb, 2024

数据擦除的前沿：大型语言模型的机器取消学习

大型语言模型开创了人工智能的进展，然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生，针对大型语言模型提供了一种选择性丢弃某些数据的技术，以解决隐私、道德和法律方面的挑战，无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究，介绍了针对文本数据和分类数据的遗忘方法，并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性，指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题，突出了机器遗忘在推动负责任、道德的人工智能方面的作用。

Mar, 2024