Sep, 2023
针对对抗引导的 LLM 安全性认证
Certifying LLM Safety against Adversarial Prompting
TL;DR我们提出了第一个具有可验证安全保证的消除-检查(erase-and-check)框架,以抵御恶意提示。我们通过逐个擦除token并使用安全过滤器检查得到的子序列,将输入提示标记为有害,如果安全过滤器检测到任何子序列或者输入提示本身存在有害的部分。我们的技术能够针对三种攻击模式进行防御,并且在保证处理安全提示的性能的同时,显著提高了在有害提示上的安全保证指标。