Oct, 2023

大型语言模型的复合后门攻击

TL;DR在这篇论文中,我们通过后门攻击的视角探索了大型语言模型的脆弱性。与现有的后门攻击不同,我们的组合后门攻击(CBA)将多个触发关键词分散在不同的提示组件中,这使得攻击更加隐蔽。我们的实验证明 CBA 在自然语言处理和多模态任务中都是有效的。我们的工作强调了对基础大型语言模型的可信度进行增加安全性研究的必要性。