ACLMar, 2024

LinkPrompt:基于提示的语言模型的自然且通用的对抗攻击

TL;DRLinkPrompt 是一种通过基于梯度的波束搜索算法生成的自然的通用对抗触发器(UATs),能够有效地攻击目标预训练语言模型(PLMs)和基于提示的微调模型(PFMs)并保持触发器标记中的自然性。