Apr, 2023

使用 ChatGPT 作为攻击工具:通过黑盒生成模型触发的微妙文本后门攻击

TL;DR本文研究黑盒生成模型作为后门攻击工具的作用以及相关防御策略,通过提出的基于生成模型的攻击方法 BGMAttack,证明其在对文本分类器进行攻击时能够有效地欺骗目标模型且更具隐秘性。五个不同数据集的广泛攻击效果评估,以及三个不同的人类认知评估均证明了该攻击方法的表现与基准方法相当,但更隐蔽。