ICLRJan, 2024

BadChain:大型语言模型的后门思维链触发

TL;DR该论文介绍了一种针对大型语言模型的链式思维激励下的后门攻击方法,该方法利用模型的推理能力,通过在模型输出的推理步骤序列中插入后门推理步骤,从而改变当查询激发后门触发器时的最终响应。实验证明,该后门攻击方法对多个大型语言模型具有很高的攻击成功率,并且现有的防御方法对其并不有效。因此,该后门攻击方法对大型语言模型构成严重威胁,并强调了对强大、有效的未来防御方法的迫切需求。