Jun, 2024

CleanGen:针对大型语言模型中生成任务的反后门攻击

TL;DR使用名为 CleanGen 的新推理时间防御机制,能够有效地减轻大型语言模型(LLMs)在生成任务中面临的后门攻击风险,通过识别并替换攻击者所偏好的可疑标记,避免生成攻击者预期的内容。实验证实 CleanGen 相对于其他防御机制在五种后门攻击上具有更低的攻击成功率,并且在为正常用户提供有用的回答时,LLMs 使用 CleanGen 并不增加太多计算负担。