SafeInfer：大型语言模型的上下文自适应解码时间安全对齐

Jun, 2024

SafeInfer：大型语言模型的上下文自适应解码时间安全对齐

SafeInfer: Context Adaptive Decoding Time Safety Alignment for Large Language Models

Somnath Banerjee, Soham Tripathy, Sayan Layek, Shanu Kumar, Animesh Mukherjee...

TL;DR通过 SafeInfer 方法中的安全放大和安全引导解码阶段以及 HarmEval 评估，此篇研究论文旨在解决安全性不足、知识编辑引入风险等问题，提供安全的回应输出并遵守伦理指南。

Abstract

safety-aligned language models often exhibit fragile and imbalanced safety mechanisms, increasing the likelihood of generating unsafe content. In addition, incorporating new knowledge through editing techniques to language models can further compromise safety. To address these issues,

safety-aligned language models safeinfer safety amplification safety-guided decoding harmeval

发现论文，激发创造

InferAligner: 通过跨模型指导实现无害性的推理时间对齐

通过 InferAligner 方法，在训练领域特定模型以及多模态的大语言模型时，有效降低了有害输入指令和越狱攻击的攻击成功率 (ASR)，同时保持了下游任务性能的基本不变。

Jan, 2024

利用上下文学习提高对话安全性

本文研究使用一种基于检索的框架来减少使用神经网络的聊天机器人系统中可能出现的安全问题和偏见，并使用上下文学习生成更加安全的回复，其中演示了使用检索的相似的对话框架所做过的安全模型回答，此方法达到了相对理想的结果。

Feb, 2023

模拟非对齐：大规模语言模型的安全对齐可能适得其反！

通过推出一种推理时攻击框架，研究表明安全对齐也可能在对抗性操作下无意中促进有害结果，实验证明其能够提高预训练模型的有害程度并在大多数评估子集中取得最高有害率，从而强调重评估安全对齐后的开源语言模型的重要性。

Feb, 2024

SafeAligner: 通过响应差异指导防御越狱攻击的安全对齐

SafeAligner 是一种在解码阶段实施的方法，用于增强抵御越狱攻击的防御能力，通过利用特定模型之间响应的安全性差异以区分有害和有益的标记，从而指导安全对齐并确保安全对齐，同时最小限度地损失普适性。

Jun, 2024

安全算法：通过控制参数和激活函数在测试时间对齐语言模型的安全性

安全算术是一种训练 - free 的框架，可提高大型语言模型在不同场景下的安全性，通过避免有害内容和促进安全响应来确保模型的安全性，实验证明安全算术在确保生成安全内容方面优于现有方法。

Jun, 2024

安全” 人工智能相应中的信息泄露导致虚假的安全感

大型语言模型存在越狱的漏洞，目前的防御机制不足以确保模型的安全性，我们引入信息理论威胁模型并提出了一种防御机制，以确保模型的安全性，并揭示了安全 - 效用的权衡关系。

Jul, 2024

SafeDecoding：通过安全感知解码防御越狱攻击

通过引入 SafeDecoding，我们旨在通过安全感知的解码策略，防御 LLMs 遭受越狱攻击，生成对用户请求有帮助且无害的回应，从而在保持 LLMs 安全性的同时，显著降低越狱攻击的成功率和有害性，超过六种防御方法。

Feb, 2024

Safer-Instruct: 与自动偏好数据对齐的语言模型

Safer-Instruct 是一种半自动构建大规模偏好数据集的新型流程，利用反向指令调整、指令归纳和专家模型评估，高效生成高质量的偏好数据，改善模型安全性并在会话和下游任务上保持竞争性能。

Nov, 2023

大型语言模型中的过度臃肿导航

通过探索大型语言模型处理和确定查询的安全性的方式以及对有害单词的过度关注的因素，本研究发现模型内部存在着捷径，强调安全性的提示将加剧过度关注有害单词，并介绍了一种名为 Self-Contrastive Decoding (Self-CD) 的训练无关且模型不可知的策略来缓解这一现象，实证结果表明我们的方法平均拒绝率减少了 20%，对安全性几乎没有影响。

Jan, 2024

通过话语链安全对齐红队大型语言模型

基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。

Aug, 2023