预训练语言模型的对抗攻击建模为序列决策

May, 2023

预训练语言模型的对抗攻击建模为序列决策

Modeling Adversarial Attack on Pre-trained Language Models as Sequential Decision Making

Xuanjie Fang, Sijie Cheng, Yang Liu, Wei Wang

TL;DR本文通过将 PLMs 的对抗攻击任务形式化为一个序列决策问题，并采用强化学习方法找到适当的攻击路径，提出了 SDM-Attack，其在攻击成功率，修改率和语义相似性上都表现出色，并且分析验证了其通用性和可转移性。

Abstract

pre-trained language models (PLMs) have been widely used to underpin various downstream tasks. However, the adversarial attack task has found that PLMs are vulnerable to small perturbations. Mainstream methods ad

pre-trained language models adversarial attack sequential decision-making problem reinforcement learning sdm-attack

发现论文，激发创造

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

本文探讨了最新的预训练语言模型（PLMs），包括 GPT-3 和 BERT，存在安全漏洞，使其容易受到对抗性攻击的影响，并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。

Sep, 2022

上下文感知对命名实体识别的对抗攻击

我们提出了一种上下文感知对抗攻击方法，通过扰乱识别实体最具信息量的词语来生成自然而可信的对抗样本，实验证明我们的方法在误导模型做出错误预测方面比基准方法更有效。

Sep, 2023

不降低性能防御预训练语言模型受到的对抗词替换攻击

本文提出了一种紧凑且性能不受影响的框架 ADFAR，采用辅助异常检测分类器和多任务学习过程较好地识别了对抗性输入的样本，并应用了频率感知的随机化过程防御对抗词置换攻击，在各种任务上显着优于其他防御方法，且没有损害 PrLMs 的整体性能。

May, 2021

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022

抵御预训练语言模型作为小样本学习器的后门攻击

该研究重点探讨了预训练语言模型（PLMs）作为少样本学习器的安全风险，并提出了一种轻量、可插拔且有效的防御方案 MDP，利用掩码灵敏度的差异比较样本的表示，从而鉴别出有显著变化的被污染样本。经实验证明，MDP 在基准数据集和典型攻击上具有较好的效果。

Sep, 2023

结构化预测模型的对抗攻击和防御

本文研究了自然语言处理结构化预测任务中的攻击与防御。我们提出了一种使用来自同一结构化预测任务的多个参考模型的反馈的序列到序列模型来攻击结构化预测模型的新颖统一框架，并通过对抗训练进一步加强了受害模型的预测，使其更加鲁棒和准确。在依赖分析和词性标注中验证了该框架。

Oct, 2020

机器翻译模型面对敌对攻击表现强劲

深度学习模型中的对抗攻击通过对输入进行微小扰动，从而导致输出发生重大变化。我们的研究重点是这种对抗攻击对序列到序列（seq2seq）模型的影响，特别是机器翻译模型。我们引入了基本的文本扰动启发式算法和更高级的策略，例如基于梯度的攻击，该攻击利用可微分逼近的非可微分翻译度量。通过我们的调查，我们提供了证据表明机器翻译模型对已知最佳对抗攻击显示出鲁棒性，因为输出中的扰动程度与输入中的扰动成正比。然而，在次优方法中，我们的攻击方法优于其他方法，提供了最佳的相对性能。另一个有力的候选方法是基于混合单个字符的攻击。

Sep, 2023

基于大型语言模型的决策制定中的后门攻击探索

这篇论文介绍了第一个全面的框架用于针对基于大型语言模型的决策系统的后门攻击，系统地探索了如何在微调阶段通过不同的渠道引入此类攻击。具体而言，作者提出了三种攻击机制和相应的后门优化方法，以攻击 LLM 决策管道中的不同组件：单词注入、场景操纵和知识注入。作者进行了广泛的实验，并展示了他们提出的后门触发器和机制的有效性和隐蔽性。最后，作者批评了自己提出方法的优点和缺点，突出了 LLM 在决策任务中固有的漏洞，并评估了保护 LLM 决策系统的潜在防御方法。

May, 2024

揭示自注意机制的漏洞

通过精心设计的注意力掩码，我们提出了强大的扰动技术 “HackAttend”，通过故意扰乱 SA 矩阵中的注意力分数，揭示了当前最先进的预训练语言模型在注意力微扰下的高度脆弱性，以及我们引入的新型平滑技术 “S-Attend” 在面对各种文本攻击时实现了与对抗训练相当的鲁棒性。

Feb, 2024