Dec, 2023

捍卫的艺术:LLM 防御策略在安全和过度防御上的系统评估与分析

TL;DR该研究通过提供一个名为 SODE 的评估基准,研究了大型语言模型的安全性和过度防御性。通过比较分析多种 LLM 防御策略,发现了一些重要的发现,例如自我检查技术虽然能改善对不安全输入的安全性,却会在安全输入上过度防御;提供安全指示和上下文示例可以提升安全性并减少过度防御;提供上下文知识容易打破安全防护,使模型更容易生成不安全的回答。