大型语言模型中的过度臃肿导航

Jan, 2024

Navigating the OverKill in Large Language Models

Chenyu Shi, Xiao Wang, Qiming Ge, Songyang Gao, Xianjun Yang...

TL;DR通过探索大型语言模型处理和确定查询的安全性的方式以及对有害单词的过度关注的因素，本研究发现模型内部存在着捷径，强调安全性的提示将加剧过度关注有害单词，并介绍了一种名为 Self-Contrastive Decoding (Self-CD) 的训练无关且模型不可知的策略来缓解这一现象，实证结果表明我们的方法平均拒绝率减少了 20%，对安全性几乎没有影响。

Abstract

large language models are meticulously aligned to be both helpful and harmless. However, recent research points to a potential overkill which means models may refuse to answer benign queries. In this paper, we in

large language models overkill harmful words safety self-contrastive decoding

发现论文，激发创造

对抗性对比解码：通过对立提示优化提高大型语言模型的安全对齐

应用于大型语言模型的安全对齐方法，无需对目标模型进行训练，采用对比解码技术以生成两个相对系统提示，从而有效提高其安全性能。

Jun, 2024

通过可控的大型语言模型实现安全性和帮助性平衡的响应

我们提出通过在大型语言模型中控制安全性和有益性来平衡多种用例，采用训练无关和微调方法来分析在语言模型中控制安全性和有益性的挑战，并通过实验验证了我们的方法可以控制模型并提供帮助。

Apr, 2024

减轻大型语言模型中的夸大安全性

通过使用多种提示策略，我们成功地减少了大型语言模型中的过度安全行为，这些策略包括使用 XSTest 数据集、交互提示、上下文提示以及少样本提示，从而使模型能够在拒绝不安全的输入的同时保持有用性。

May, 2024

大型语言模型的知识清洗

我们探索了一种知识消毒方法，用于减轻与大型语言模型（LLMs）相关的隐私问题。我们的方法通过微调模型，在查询特定信息时，促使其生成无害回答，如 “我不知道”。实验证实，我们的简单方法不仅最小化了特定知识泄漏，还保留了 LLM 的整体性能。这两个优势加强了对提取攻击的防御，并减少了产生幻觉等有害内容的排放。

Sep, 2023

大型语言模型对于生成有害内容的鱼目混珠攻击存在漏洞

通过诱饵和转换攻击，大型语言模型能够将安全文本转化为有害内容，这提醒我们在开发可靠的安全保护机制时需要考虑后续转换。

Feb, 2024

LLM 自卫：通过自我检验，LLM 知道自己被欺骗

通过使用语言模型验证内容，我们提出了一种简单的方法来防御对抗性攻击，从而使大型语言模型过滤其自己的回应，即使模型未经人类价值重新调整，也可以避免为用户呈现有害内容。

Aug, 2023

忽略不计：大型语言模型中的指令覆盖和调控

最近的大型语言模型在指令遵循的冲突情况下进行了调查和基准测试，对比了最流行的专有模型和不同大小的开源模型。实验表明，较大的模型在遵循指令方面表现最佳，并且对内部和上下文指令具有覆盖能力。然而，在进行长上下文的缩放时需要保持与困惑度边缘的显著缓冲区，以保持指令遵循能力。此外，提高指令遵循与遵循给定安全过滤器或指南的能力相互冲突，因此我们认为处理安全可信人工智能的最有效方法应该是在语言模型之外进行。

Feb, 2024

针对对抗引导的 LLM 安全性认证

我们提出了第一个具有可验证安全保证的消除 - 检查（erase-and-check）框架，以抵御恶意提示。我们通过逐个擦除 token 并使用安全过滤器检查得到的子序列，将输入提示标记为有害，如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御，并且在保证处理安全提示的性能的同时，显著提高了在有害提示上的安全保证指标。

Sep, 2023

通过代码探索大型语言模型的安全泛化挑战

通过将自然语言输入转化为代码输入，CodeAttack 框架揭示了大型语言模型的安全泛化性问题，并发现了代码领域中的新安全风险，需要更健壮的安全对齐算法来匹配大型语言模型的代码功能。

Mar, 2024

大规模语言模型中的多语言越狱挑战

大型语言模型（LLMs）存在潜在的安全隐患，因此需要发展预防措施。本研究揭示了 LLMs 内存在的多语言破解挑战，并针对意外和恶意的风险场景进行了探讨。实验结果显示，在多语言环境中，通过自卫框架进行训练可以显著减少 LLMs 生成的不安全内容。

Oct, 2023