safety alignment | BriefGPT

关键词safety alignment

搜索结果 - 28

自然语言处理中的安全对齐：以上下文攻击为例的弱对齐摘要
大型语言模型（LLMs）的有用性和安全性的平衡发展引发了一个关键问题：主流 NLP 任务是否与安全考虑足够一致？我们的研究聚焦于通过对抗性攻击获得的安全敏感文档，揭示了各种 NLP 任务的安全对齐存在显著差异。例如，LLMs 可以有效地总结
PDF7 months ago
后门激活攻击：使用激活引导实施对大型语言模型的攻击以达到安全对齐
通过向大型语言模型注入木马激活向量，我们提出了一种名为后门激活攻击的新型攻击框架，使得模型在推理时可以被激活并朝着攻击者所期望的行为方向进行操纵，该方法在主要的对齐任务上表现出高度的有效性，并且几乎不会给攻击效率增加任何开销，同时讨论了对抗
PDF8 months ago
AutoDAN: 大型语言模型的自动可解释的对抗攻击
安全性对齐、大型语言模型（LLMs）、手动越狱攻击、对抗性攻击、可解释对抗性攻击。
PDF8 months ago
对大规模语言模型的漏洞调查：对抗性攻击的揭示
大型语言模型的安全性评估和对抗攻击是一个新兴的跨学科领域，本文调查了该领域的相关研究，并提供了对大型语言模型、安全对抗、漏洞源及潜在防御措施的综述。
PDF9 months ago
微调对齐语言模型牺牲了安全性，即使用户并无此意！
通过细调大型语言模型 (LLMs) 进行定制以优化下游应用通常需要进一步在预训练的 LLMs 上进行微调。然而，此类自定义微调的安全成本是多少？我们的研究发现，尽管现有的安全对齐基础设施可以在推理时限制 LLMs 的有害行为，但当将微调权限
PDF9 months ago
通过话语链安全对齐红队大型语言模型
基于大型语言模型的安全性评估与对抗、生成有害回应的问题以及安全对齐的方法和模型研究。
PDFa year ago
GPT-4 太聪明了，不安全：通过密码与 LLMs 进行隐秘聊天
通过 CipherChat 框架评估 ChatGPT 和 GPT-4，发现某些密码能够在多个安全领域中以近乎 100% 的成功率绕过 GPT-4 的安全对齐，证明了开发非自然语言安全对齐的必要性，同时提出了一种新颖的 SelfCipher
PDFa year ago
改善 LLM 的安全对齐：基于人类偏好数据的探索
介绍了 BeaverTails 数据集，用于促进大型语言模型（LLMs）中的安全一致性研究。该数据集独特地区分了有关问答对的有用性和无害性的注释，因此可以从不同的角度对这些关键属性进行分析。总共编制了 30,207 个问答对的安全元标签，并
PDFa year ago