一种基于提示的对抗性样本生成和鲁棒性增强方法

Mar, 2022

一种基于提示的对抗性样本生成和鲁棒性增强方法

A Prompting-based Approach for Adversarial Example Generation and Robustness Enhancement

Yuting Yang, Pei Huang, Juan Cao, Jintao Li, Yun Lin...

TL;DR本研究提出了一种基于 Prompt 的新型对抗攻击和提高自然语言处理模型的鲁棒性的技术，包括恶意 Prompt 构建、对抗样本生成和 Prompt-based 对抗训练方法，并实验验证了攻击成功率的高效性和鲁棒性提高方法的有效性。

Abstract

Recent years have seen the wide application of nlp models in crucial areas such as finance, medical treatment, and news media, raising concerns of the model robustness and vulnerabilities. In this paper, we propose a novel prompt-based adversarial attack to compromise →

nlp models adversarial attacks robustness enhancement prompt-based method pre-trained language models

发现论文，激发创造

PromptAttack：一种基于提示的语言模型梯度搜索攻击方法

本文提出一个恶意提示模板构造方法（PromptAttack）来探究预训练语言模型（PLMs）的安全性能。对三个数据集和三个 PLMs 进行广泛实验，证明了我们提出的 PromptAttack 方法的有效性。我们还进行了实验，验证了我们的方法在少量样本情境下也可以适用。

Sep, 2022

基于启发式贪婪的对话式学习模型中的对抗攻击

本文提出了一种基于 prompt 的对抗攻击方法，通过设计启发式算法和贪婪算法，在黑匣子场景下成功攻击了手动模板，并在多个分类任务中验证了其有效性和泛化能力。

Jun, 2023

通过提示进行模型调整使 NLP 模型具有对抗鲁棒性

该研究通过 Model-tuning Via Prompts (MVP) 修改输入而非模型以适应下游任务，在三个分类数据集上提高对抗性的稳健性，超过标准方法平均 8％和对抗性训练的最新防御技术 3.5％。研究结果发现多层感知器 (MLP) 易受对抗性扰动的影响归因于预训练和微调任务之间的不匹配和 MLP 参数的随机初始化。

Mar, 2023

PromptBench：评估大型语言模型对对抗性提示的鲁棒性

本研究使用 adversarial prompts 对 Large Language Models 进行度量，并分析了 prompt 鲁棒性及其传递性，为 prompt 组合提供了实用性建议。

Jun, 2023

一个提示词足以提升预训练视觉语言模型的对抗鲁棒性

通过学习稳健的文本提示来提高视觉语言模型的对抗攻击的鲁棒性，该方法被称为对抗提示调优（APT），通过简单地向提示中添加一个学习到的单词，可以显著提高准确性和鲁棒性（epsilon=4/255），平均分别提高 13% 和 8.5%。

Mar, 2024

PromptFix: 通过对抗性提示调整进行少样本后门移除

通过对软标记以及对抗优化的使用，提出一种名为 PromptFix 的新型反后门策略，适用于自然语言处理模型中的少样本情景，并通过各种后门攻击实验证实了该方法的有效性以及在存在领域转移时的性能。

Jun, 2024

大型语言模型的红队和防御攻击指令生成

通过综合手动和自动方法生成攻击提示的综合方法，提出了一种攻击框架来训练大型语言模型并模仿人类生成的提示，并通过与攻击框架的迭代交互来增强受攻击模型对红队攻击的安全性；在不同的大型语言模型上进行广泛实验证实了攻击和防御框架的有效性，并发布了一系列攻击提示数据集（SAP）以便更多大型语言模型的安全评估和增强。

Oct, 2023

AdvPrompter: LLMs 的快速自适应敌对提示

通过使用 AdvPrompter 方法，本文提出了一种用于生成人类可读的敌对提示的新方法，生成的提示可以在几秒钟内完成，比现有的基于优化的方法快 800 倍，该方法使得大型语言模型（LLMs）更加抵抗破解攻击而实现高性能。

Apr, 2024

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

上下文感知对命名实体识别的对抗攻击

我们提出了一种上下文感知对抗攻击方法，通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本，实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。

Sep, 2023