Dec, 2023

自然语言处理中的安全对齐:以上下文攻击为例的弱对齐摘要

TL;DR大型语言模型(LLMs)的有用性和安全性的平衡发展引发了一个关键问题:主流 NLP 任务是否与安全考虑足够一致?我们的研究聚焦于通过对抗性攻击获得的安全敏感文档,揭示了各种 NLP 任务的安全对齐存在显著差异。例如,LLMs 可以有效地总结恶意长文档,但常常拒绝将其翻译。这种差异突显了一种以前未被发现的漏洞:攻击利用安全对齐较弱的任务,如总结,可能危及传统上被认为更稳健的任务的完整性,例如翻译和问答(QA)。此外,同时使用具有较弱安全对齐的多个 NLP 任务会增加 LLMs 无意中处理有害内容的风险。我们在各种安全对齐的 LLMs 中展示了这些漏洞,特别是在 Llama2 模型和 GPT-4 中,这表明迫切需要加强 NLP 任务的安全对齐。