Feb, 2024

在指导调整期间学习对大型语言模型进行毒化

TL;DR通过设计一种新的数据污染攻击,本研究进一步识别了 LLMs 中的安全风险,并提出了一种梯度引导的后门触发器学习方法,以高效地识别对手的触发器,并确保对传统防御的逃避,同时保持内容完整性。