Feb, 2024

SafeDecoding:通过安全感知解码防御越狱攻击

TL;DR通过引入 SafeDecoding,我们旨在通过安全感知的解码策略,防御 LLMs 遭受越狱攻击,生成对用户请求有帮助且无害的回应,从而在保持 LLMs 安全性的同时,显著降低越狱攻击的成功率和有害性,超过六种防御方法。