LinkPrompt：基于提示的语言模型的自然且通用的对抗攻击

ACLMar, 2024

LinkPrompt：基于提示的语言模型的自然且通用的对抗攻击

$\textit{LinkPrompt}$: Natural and Universal Adversarial Attacks on Prompt-based Language Models

Yue Xu, Wenjie Wang

TL;DRLinkPrompt 是一种通过基于梯度的波束搜索算法生成的自然的通用对抗触发器（UATs），能够有效地攻击目标预训练语言模型（PLMs）和基于提示的微调模型（PFMs）并保持触发器标记中的自然性。

Abstract

prompt-based learning is a new language model training paradigm that adapts the pre-trained language models (PLMs) to downstream tasks, which revitalizes the performance benchmarks across various natural language

prompt-based learning pre-trained language models adversarial prompts universal adversarial triggers linkprompt

发现论文，激发创造

PromptAttack：一种基于提示的语言模型梯度搜索攻击方法

本文提出一个恶意提示模板构造方法（PromptAttack）来探究预训练语言模型（PLMs）的安全性能。对三个数据集和三个 PLMs 进行广泛实验，证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验，验证了我们的方法在少量样本情境下也可以适用。

Sep, 2022

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

AdaPrompt：基于提示的自然语言处理自适应模型训练

通过利用任务和提示的特征，AdaPrompt 使预训练语言模型不断预训练，提高了 NLP 方面几个基准测试中的表现，在零样本情况下相对误差降低了高达 26.35％。

Feb, 2022

基于启发式贪婪的对话式学习模型中的对抗攻击

本文提出了一种基于 prompt 的对抗攻击方法，通过设计启发式算法和贪婪算法，在黑匣子场景下成功攻击了手动模板，并在多个分类任务中验证了其有效性和泛化能力。

Jun, 2023

一种基于提示的对抗性样本生成和鲁棒性增强方法

本研究提出了一种基于 Prompt 的新型对抗攻击和提高自然语言处理模型的鲁棒性的技术，包括恶意 Prompt 构建、对抗样本生成和 Prompt-based 对抗训练方法，并实验验证了攻击成功率的高效性和鲁棒性提高方法的有效性。

Mar, 2022

探究基于提示学习范式的普遍性漏洞

本文研究了 Prompt-based learning 模式的普适漏洞，发现加入特定的触发器可以完全控制和降低其性能，并提出了缓解攻击方法的潜在解决方案。

Apr, 2022

大规模语言模型的自动且通用提示注入攻击

自动梯度方法生成高效、通用的提示注入数据，彰显梯度测试的重要性，尤其是对于防御机制。

Mar, 2024

语言模型攻击技术

使用 PromptInject 对 GPT-3 进行了安全性评估，发现针对 goal hijacking 和 prompt leaking 的手工输入攻击可以利用 GPT-3 的随机性，导致潜在的风险

Nov, 2022

基于提示的后门攻击：探究语言模型的漏洞

本研究提出了一种名为 ProAttack 的新方法，用于在不使用外部触发器的情况下基于提示执行干净标签的后门攻击，从而对模型引入有针对性的漏洞，该方法使用提示本身作为触发器，并确保正确标记给定的样本，可以提高后门攻击的隐蔽性。

May, 2023

基于困惑度度量和上下文信息的标记级对抗性提示检测

本文提出了一种基于令牌级别检测方法来识别对抗提示的方法，利用大型语言模型的能力来预测下一个令牌的概率，测量模型的困惑度并结合相邻令牌信息，以鼓励检测连续的对抗提示序列，提出了两种方法：一种将每个令牌识别为是否属于对抗提示的一部分，另一种估计每个令牌属于对抗提示的概率。

Nov, 2023