LLM 中取消学习的防护栏基准

ICLRMar, 2024

Guardrail Baselines for Unlearning in LLMs

Pratiksha Thaker, Yash Maurya, Virginia Smith

TL;DR通过示例和迭代微调模型以更新模型的方法与简单的基于防护栏的方法（如提示和过滤）相比，可以实现可比的取消学习结果，推荐研究人员在评估性能较高的微调方法时，研究这些轻量级基准。

Abstract

Recent work has demonstrated that fine-tuning is a promising approach to `unlearn' concepts from large language models. However, fine-tuning

fine-tuning unlearn guardrail-based approaches prompting filtering

发现论文，激发创造

控制中的遗忘：对大型语言模型遗忘的现实应用评估

我们提出了衡量实际效能的一组度量标准，并提出了几种控制方法以规范过多的遗忘。经过在已建立的基准测试上的实验分析，我们得出结论，基于梯度上升的方法在实践中并不完美，强烈的遗忘会以牺牲模型实用性的代价为代价。我们得出结论，朝着实际和有效的大型语言模型遗忘还有很长的路要走，并需要在这个领域投入更多的努力。

Jun, 2024

大型语言模型遗忘

我们研究了如何在大型语言模型中执行遗忘，即忘记不受欢迎的行为，并展示了三种情况下进行语言模型与人类偏好的对齐可以从学习中受益：（1）删除有害回应，（2）根据要求删除受版权保护的内容，以及（3）消除幻觉。我们的工作是探索语言模型遗忘中首个实现，并在设置、目标和评估方面都是先驱。我们还表明，如果从业者只有有限的资源，优先级是停止生成不受欢迎的输出而不是生成理想的输出，那么遗忘尤其吸引人。尽管我们只具有负样本，但我们的消融研究显示，遗忘仍可以在仅使用 2％的计算时间时实现更好的对齐性能比 RLHF。

Oct, 2023

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

大型语言模型中的软提示对取消学习的影响

通过在训练数据的子集上实现遗忘的相对较轻量级替代方案，我们的研究框架 SPUL 能够显著改善使用 LLMs 进行文本分类时效用和遗忘之间的平衡。

Jun, 2024

上下文学习中的不可学习算法

机器去学习是一项理想的操作，然而实现精确的去学习是具有挑战性或低效的，这篇论文关注于大型语言模型的任务适应阶段的高效去学习方法，并提供了一种算法来选择少量训练样本进行任务适应，最终得出在上下文学习方面比微调方法更有优势的结论。

Feb, 2024

非非学习：在先进生成型人工智能中，非学习不足以进行内容监管

该论文讨论了在大型语言模型中使用取消学习作为一种控制机制，并发现取消学习在训练阶段是有效的，但无法阻止模型在推断过程中出现不合规的行为，因此对于有效的内容规范，需要进行内容过滤以及引入取消取消学习的概念来解决问题。

Jun, 2024

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

大型语言模型中的机器遗忘

机器遗忘是人工智能中的一个新领域，专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战，特别是在大型语言模型（LLM）的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法，以便符合伦理、隐私和安全标准，并目标性地删除或修改 LLM 中的学习信息，以解决有害回应和版权问题。

May, 2024

通过微调在 GPT-4 中移除 RLHF 保护

精细调整大型语言模型（LLM）的 RLHF 保护可能性，使用较弱模型生成的训练数据可以有效地移除 RLHF 保护，但不会降低其在非审查输出上的有用性，表明对 LLMs 的保护需要进一步研究。

Nov, 2023

大型语言模型的机器遗忘思考

探索机器遗忘（MU）在大型语言模型（LLMs）领域中的应用，称为 LLM 遗忘。通过维持基本知识生成的完整性且不影响非因果相关信息，旨在消除不良数据影响（例如敏感或非法信息）及相关模型能力，成为 LLMs 生命周期管理中的重要元素，潜在地作为开发生成式 AI 的基础，既安全、安全、可信，又无需完全重新训练的资源高效方法。从概念制定、方法论、度量和应用等方面研究 LLMs 遗忘领域。重点突出现有 LLM 遗忘研究中常被忽视的方面，例如遗忘范围、数据模型交互和多方面功效评估。并在 LLM 遗忘与模型编辑、影响函数、模型解释、对抗训练和强化学习等相关领域之间建立联系。此外，我们还概述了 LLM 遗忘的有效评估框架，并探讨了其在版权和隐私保护以及降低社会技术危害方面的应用。

Feb, 2024