Nov, 2023

黑盒大型语言模型的测试时间防后门干预

TL;DR针对大型语言模型在黑盒环境下的后门攻击问题,我们提出了一种新颖的防御策略,即防御演示。我们的方法通过从未受污染的数据集中选择任务相关的演示案例,并将它们与用户查询一起用于测试,无需修改/调整黑盒模型或了解其内部机制,从而有效对抗后门攻击并在大多数场景中优于现有基准。