大型语言模型中学习和遗忘不安全示例

Dec, 2023

大型语言模型中学习和遗忘不安全示例

Learning and Forgetting Unsafe Examples in Large Language Models

Jiachen Zhao, Zhun Deng, David Madras, James Zou, Mengye Ren

TL;DR即使在第三方定制微调数据中学习不安全内容，大型语言模型（LLMs）也可以采用 “遗忘过滤器” 算法过滤不安全的数据，确保安全，同时不影响后续任务性能。

Abstract

As the number of large language models (LLMs) released to the public grows, there is a pressing need to understand the safety implications associated with these models learning from third-party custom finetuning data

large language models finetuning data unsafe content forgetfilter algorithm safety measures

发现论文，激发创造

大型语言模型使有害行为无法学习

通过引入安全向量 `security vectors` 并在微调过程中激活，使得大型语言模型 `LLMs` 产生一致性响应，从而防止其学习有害行为。在推断过程中，我们可以关闭安全向量以恢复正常行为。实验结果表明，使用 100 个有害样本生成的安全向量足以防止 LLM 学习 1000 个有害样本，同时保留学习其他有用信息的能力。

Nov, 2023

大型语言模型微调遗忘的缩放律

对细调预训练大型语言模型在下游任务中的忘记问题进行研究和量化，发现参数高效的细调策略仍然存在灾难性的忘记问题，特别是细调带有 Low-Rank Adapters（LoRA）的语言模型在性能和遗忘量之间存在强烈的线性关系，研究还给出了精确的缩放规律，显示遗忘量随着细调参数数量和更新步数呈现移位幂律的增长，同时考察了遗忘对知识、推理和 Llama 2 7B 聊天机器人中的安全保障的影响，研究表明无法通过提前停止或调整细调参数数量来避免遗忘问题，这为未来评估和开发减轻遗忘问题的细调方案开辟了重要的安全关键方向。

Jan, 2024

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

大型语言模型中的机器遗忘

机器遗忘是人工智能中的一个新领域，专注于解决在机器学习模型中有选择地遗忘或减少不良知识或行为的挑战，特别是在大型语言模型（LLM）的背景下。本文介绍了一种使用梯度上升算法对 LLM 进行对齐的方法，以便符合伦理、隐私和安全标准，并目标性地删除或修改 LLM 中的学习信息，以解决有害回应和版权问题。

May, 2024

遗忘您想遗忘的内容：针对 LLMs 的高效遗忘方法

提出了一种高效的取消学习框架，通过引入轻量级的取消学习层并与 transformers 结合，可以在不对整个模型重新训练的情况下有效地更新大型语言模型，以解决用户数据隐私与数据保护法规的问题。实验证明，与现有技术相比，我们提出的方法在分类和生成任务上的有效性得到了验证。

Oct, 2023

微调对齐语言模型牺牲了安全性，即使用户并无此意！

通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为，但当将微调权限扩展给最终用户时，它们却无法覆盖安全风险。我们的红队研究发现，只需使用少数恶意设计的训练样例对 GPT-3.5 Turbo 进行微调，就可能危及 LLMs 的安全对齐性。此外，我们的研究还揭示，即使没有恶意意图，只需使用良性且常用的数据集对 LLMs 进行微调，也可能无意中降低其安全对齐性。这些发现表明，细调对齐的 LLMs 引入了新的安全风险，而当前的安全基础设施无法很好地解决这些风险。我们概述并对潜在减轻措施进行了批判性分析，并倡导进一步的研究努力，以加强对齐的 LLMs 的自定义微调的安全协议。

Oct, 2023

在大型语言模型的优化过程中测量风险：导航安全景观

通过测量和可视化大型语言模型（LLMs）的安全景观，我们发现了一种称为 “安全盆地” 的普遍现象，该现象在流行的开源 LLMs 模型参数空间中观察到。我们提出了一种新的安全度量标准，VISAGE 安全度量标准，用于通过探测安全景观来衡量 LLMs 微调的安全性，并通过可视化的安全景观了解 LLMs 通过微调如何降低其安全性。LLMs 的安全景观还突出了系统提示在保护模型中的关键作用，并且这种保护通过其在安全盆地内的扰动变体进行传递。我们的安全景观研究的观察结果为未来关于 LLMs 安全性的工作提供了新的见解。

May, 2024

从数据泄露和遗忘中对法律的启示

大型语言模型（LLMs）在隐私方面存在关注，因为它们会记忆训练数据（包括个人可识别信息（PII）如电子邮件和电话号码），并在推理过程中泄露。现有工作关注度较低，本研究表明精调模型不仅会泄露其训练数据，还会泄露在预训练阶段记忆的预训练数据（和 PII）。通过精调模型来进行预训练数据的遗忘和泄露使新的数据点变得容易被提取，给使用 LLMs 提供服务的公司带来了重大的隐私和法律问题。我们希望本研究能够在人工智能和法律界引发跨学科讨论，并针对这些问题制定相应的政策。

Jul, 2023

深入剖析语言模型微调中的遗忘现象：基于示例关联的统计分析

本文通过对语言模型进行经验分析，发现忘记常常可以通过上游示例和新学习任务的简单乘法关系来近似，并揭示了特定子集示例的复杂忘记模式，在基于经验关联的矩阵补全方法中预测了在学习新任务时发生在上游示例上的遗忘，优于依赖可训练语言模型的先前方法。

Jun, 2024

数据擦除的前沿：大型语言模型的机器取消学习

大型语言模型开创了人工智能的进展，然而它们可能会危险地记忆和传播敏感、偏见或受版权保护的信息。机器遗忘作为一种尖端解决方案应运而生，针对大型语言模型提供了一种选择性丢弃某些数据的技术，以解决隐私、道德和法律方面的挑战，无需进行完整的模型重新训练。本文回顾了关于大型语言模型的机器遗忘的最新研究，介绍了针对文本数据和分类数据的遗忘方法，并展示了这些方法在删除特定数据的同时保持模型高效性的有效性。本文还强调了机器遗忘的实用性，指出了保持模型完整性、避免过度或不足的数据删除以及确保一致的输出等问题，突出了机器遗忘在推动负责任、道德的人工智能方面的作用。

Mar, 2024