Jul, 2024

随时拒绝帮助您提高LLM的安全性:通过分离式拒绝训练改进安全性

TL;DR利用Decoupled Refusal Training (DeRTa)方法,通过识别并解决安全调优数据中的拒绝位置偏见,增强大型语言模型的拒绝生成不安全内容的能力。实证评估结果表明,DeRTa方法不仅在提高模型安全性的同时不会影响性能,而且在防御攻击方面超过了GPT-4等知名模型,成功抵御最新的高级攻击方法(如CodeAttack)。