Apr, 2024

基于目标引导的生成式提示注入攻击大型语言模型

TL;DR通过重新定义攻击目标并设计简单而有效的目标导向生成式提示注入策略(G2PIA),我们最大化纯文本和对抗文本之间的 KL 散度,从而在无查询条件下以较低的计算成本实现最佳攻击效果。在七个大型语言模型和四个数据集上的实验结果表明我们的攻击方法的有效性。