自然语言处理中的安全对齐：以上下文攻击为例的弱对齐摘要

Dec, 2023

自然语言处理中的安全对齐：以上下文攻击为例的弱对齐摘要

Safety Alignment in NLP Tasks: Weakly Aligned Summarization as an In-Context Attack

Yu Fu, Yufei Li, Wen Xiao, Cong Liu, Yue Dong

TL;DR大型语言模型（LLMs）的有用性和安全性的平衡发展引发了一个关键问题：主流 NLP 任务是否与安全考虑足够一致？我们的研究聚焦于通过对抗性攻击获得的安全敏感文档，揭示了各种 NLP 任务的安全对齐存在显著差异。例如，LLMs 可以有效地总结恶意长文档，但常常拒绝将其翻译。这种差异突显了一种以前未被发现的漏洞：攻击利用安全对齐较弱的任务，如总结，可能危及传统上被认为更稳健的任务的完整性，例如翻译和问答（QA）。此外，同时使用具有较弱安全对齐的多个 NLP 任务会增加 LLMs 无意中处理有害内容的风险。我们在各种安全对齐的 LLMs 中展示了这些漏洞，特别是在 Llama2 模型和 GPT-4 中，这表明迫切需要加强 NLP 任务的安全对齐。

Abstract

Recent developments in balancing the usefulness and safety of Large Language Models (LLMs) have raised a critical question: Are mainstream nlp tasks adequately aligned with safety consideration? Our study, focusing on safety-sensitive documents obtained through →

large language models safety alignment nlp tasks vulnerabilities adversarial attacks

发现论文，激发创造

安全对齐不应仅限于几个标记

当前大型语言模型（LLM）存在的安全对齐问题容易受到攻击，我们称之为浅安全对齐问题。本文通过案例研究解释了为什么浅安全对齐问题存在，并提供证据表明目前的安全对齐 LLMs 受到此问题的影响。我们还展示了这些发现如何帮助解释最近发现的 LLMs 的多个漏洞，包括对敌对性后缀攻击、填充攻击、解码参数攻击和微调攻击的敏感性。同时，我们讨论了浅安全对齐的综合概念如何为减轻这些漏洞指明了有价值的研究方向，并提出了一种通过限制对初始标记的更新来使安全对齐更具持久性的正则化微调目标。总之，我们主张未来的安全对齐应该超越前几个标记而更加深入。

Jun, 2024

跨任务防御：面向内容安全的指令调优语言模型

我们的研究旨在针对恶意文件开发强大的大型语言模型（LLMs）防御机制，并通过指导调整来提高它们处理危险内容的能力，同时维持其效用和安全之间的平衡。在我们的实证结果中，LLMs 可以通过适当的指导调整显著增强它们处理危险内容的能力。此外，加强易受滥用任务的防御策略对于保护 LLMs 免受处理有害信息的影响是有效的。我们还观察到防御策略中存在效用与安全之间的权衡，其中采用我们提出的方法的 Llama2 相比 Llama1 具有更好的平衡。

May, 2024

暗影对齐：篡改安全对齐语言模型的容易程度

开源大型语言模型（LLMs）的安全性需要加固以防止恶意攻击，本研究通过引入 Shadow Alignment 概念，展示了仅利用少量数据即可使安全对齐的 LLMs 适应有害任务而不损害其帮助性，并通过实验证明这种攻击的有效性及其跨不同模型和语言的成功转移。

Oct, 2023

上下文中的对齐问题

当前的大型语言模型仍然容易受到对抗攻击，使其表现出不安全的行为，这一基本问题不仅对当前的人工智能系统尚未解决，而且在不严重削弱其能力的情况下可能难以解决，同时也对未来和更具能力的人工智能系统的安全性提出了担忧。

Nov, 2023

面向医学领域的安全对齐大型语言模型

本文首次对医学 LLMs 进行了安全评估，讨论了医学 LLMs 的安全和对齐性，并展示了微调作为有效的缓解策略，希望这项工作能够启发未来的研究，并开发出更多的缓解策略，以减少医学 LLMs 在医学领域中的潜在风险。

Mar, 2024

模拟非对齐：大规模语言模型的安全对齐可能适得其反！

通过推出一种推理时攻击框架，研究表明安全对齐也可能在对抗性操作下无意中促进有害结果，实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率，从而强调重评估安全对齐后的开源语言模型的重要性。

Feb, 2024

伪对齐：LLMs 真的对齐良好吗？

该研究探讨了大型语言模型的安全性问题，并指出其在多项选择问题和开放性问题之间性能存在显著差异，可能是由于不完全理解安全概念导致了虚假的对齐现象。为了解决这个问题，引入了 FAEF 框架和两个新的指标，Consistency Score (CS) 和 Consistent Safety Score (CSS)，以综合评估和纠正性能估计偏差。应用 FAEF 框架到 14 个广泛使用的大型语言模型后，发现虽然之前它们被视为安全模型，但在实践中它们的对齐程度不高，突显了现有对齐方法的局限性。

Nov, 2023

SLM 作为守护者：先驱性地利用小型语言模型进行人工智能安全

利用较小的大语言模型实现有害查询检测和安全响应，通过多任务学习机制融合两个任务到一个模型里，效果在公开的大语言模型上表现相当或超过有害查询检测和安全响应的性能。

May, 2024

对齐之毒

通过实验证明，内容安全问题角度来看，对齐对指令调整模型的性能有负面影响，尤其是在各种推理基准测试中，通过有对齐的答案进行调整会使性能下降 4-33%。

Aug, 2023

语言障碍：剖析 LLMs 在多语言环境中的安全挑战

本文探讨大型语言模型在多语言环境中的安全挑战，并讨论缓解此类问题的方法。通过比较先进的语言模型对高资源语言和低资源语言下恶意提示的响应，我们发现低资源语言中的恶意提示往往导致不安全的回答，并且语言模型对低资源语言的恶意提示产生更多的无关回答。此外，我们发现提高模型对高资源语言的训练并没有带来显著改善，表明跨语言对齐的瓶颈在于预训练阶段。我们的发现凸显了跨语言大型语言模型安全的挑战，并希望这些发现能指导未来的研究。

Jan, 2024