您的 “安全” 数据中有什么？：识别破坏安全性的良性数据

Apr, 2024

您的 “安全” 数据中有什么？：识别破坏安全性的良性数据

What's in Your "Safe" Data?: Identifying Benign Data that Breaks Safety

Luxi He, Mengzhou Xia, Peter Henderson

TL;DR通过双向锚定方法优先选择与有害示例接近但远离良性示例的数据点，我们的方法有效地识别了在微调后可能降低模型安全性的良性数据子集。

Abstract

Current large language models (LLMs), even those tuned for safety and alignment, are susceptible to jailbreaking. Some have found that jus

large language models jailbreaking fine-tuning data-centric aspects safety

发现论文，激发创造

模仿用户数据：关于减轻封闭式大型语言模型的微调风险

在小而高质量的数据集上对大型语言模型进行微调可以增强其在特定下游任务上的性能，我们的研究探讨了在不同任务特定数据上进行微调时存在的安全风险，并提出了一种新的缓解策略，该策略在维持相似任务性能的同时，更有效地重新建立安全对齐。

Jun, 2024

几乎零成本的安全微调：视觉大型语言模型的基准

当前的大型视觉语言模型存在生成有害内容的问题以及容易受到恶意攻击的问题。为了解决这个问题，我们筛选了一个视觉语言安全指令数据集 VLGuard，并将其整合到标准的视觉语言微调中，使模型在安全性方面得到了有效的提升，同时对模型的帮助性影响最小甚至有所增强。经验结果表明，经过微调的大型视觉语言模型能够有效拒绝不安全的指令，并大幅降低几种黑盒对抗攻击的成功率。

Feb, 2024

利用后门增强对齐来缓解微调越狱攻击

通过使用少量的安全示例，我们提出了一种后门增强安全对齐方法，以有效防御偏好微调调优攻击，同时不损害微调任务的性能。

Feb, 2024

通过数据整理提高安全对齐的大型语言模型鲁棒性

我们提出了一种数据筛选框架，以增强大语言模型的安全对齐性，通过减少含有有害信息的数据的影响或增加在下游微调期间的越狱难度。在研究中，我们通过预训练或微调采用经过筛选的干净文本对大语言模型进行训练，观察到在安全对齐方面对有害查询的响应性明显改善，例如当使用含有 5% 有害实例的众包数据集进行预训练时，添加相同数量的经过筛选的文本显著减少了大语言模型提供有害响应的可能性，并将攻击成功率降低了 71%。我们的研究代表了缓解基于训练的越狱风险以及加固大语言模型安全使用的重要进展。

May, 2024

潜在破解：用于评估大型语言模型文本安全和输出鲁棒性的基准测试

本研究运用诸如指令调整和来自人类或人工智能反馈的强化学习等技术，提出了一个潜在的越狱 Prompts 数据集，旨在全面研究大型语言模型的文本安全性和输出鲁棒性，结果表明当前的 LLMs 不仅偏爱某些指令动词，而且在显式正常指令中存在不同的越狱率，这意味着在显式正常指令中的指令动词将不同程度地增强模型生成不安全内容的概率。

Jul, 2023

对中间隐藏状态的介绍解释 LLM 安全性：关于对齐和越狱的工作方式

本研究通过弱分类器解释大型语言模型的安全性，确认在预训练阶段 LLMs 学习道德概念而不是对齐，揭示了安全对其生成的恶意内容的抵御机制，以及越过安全限制的越狱行为对 LLM 安全的影响，从而提供了 LLM 安全的内在机制和减轻担忧的新视角。

Jun, 2024

安全对齐不应仅限于几个标记

当前大型语言模型（LLM）存在的安全对齐问题容易受到攻击，我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在，并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞，包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时，我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向，并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之，我们主张未来的安全对齐应该超越前几个标记而更加深入。

Jun, 2024

通过修剪和低秩修改评估安全对齐的脆弱性

利用剪枝和低秩修改探索大型语言模型的安全与稳健性，发现关键区域的剔除威胁了安全性但对效用影响不大，同时指出即使限制对关键区域的修改，大型语言模型仍然容易受到低成本的微调攻击，强调了对大型语言模型更强健的安全策略的迫切需求。

Feb, 2024

大型语言模型使有害行为无法学习

通过引入安全向量 `security vectors` 并在微调过程中激活，使得大型语言模型 `LLMs` 产生一致性响应，从而防止其学习有害行为。在推断过程中，我们可以关闭安全向量以恢复正常行为。实验结果表明，使用 100 个有害样本生成的安全向量足以防止 LLM 学习 1000 个有害样本，同时保留学习其他有用信息的能力。

Nov, 2023

越狱：LLM 安全培训如何失败？

本文研究大型语言模型中的安全问题，提出两种安全训练的失败模式，分别是竞争目标和广义不符合。作者发现，这些安全问题无法通过红队测试和安全培训解决，并提出需要将安全机制的复杂度与模型的能力相匹配。

Jul, 2023