Jun, 2024

SelfDefend: LLMs 能够以实用方式自我防护免受越狱攻击

TL;DR这篇论文介绍了一种名为 SelfDefend 的通用 LLM 监狱破解防御框架,通过在正常堆栈中建立影子 LLM 防御实例并与目标 LLM 实例协同工作来保护目标 LLM 实例。测量结果表明,SelfDefend 可使 GPT-3.5 的攻击成功率下降 8.97-95.74%(平均 60%),而对正常查询影响微乎其微。同时,通过数据精馏方法调整专用的开源防御模型进一步提高防御的鲁棒性并降低成本。