抗击单词级对抗性攻击的文本嵌入

Feb, 2022

抗击单词级对抗性攻击的文本嵌入

Robust Textual Embedding against Word-level Adversarial Attacks

Yichen Yang, Xiaosen Wang, Kun He

TL;DR本研究提出了一种新的鲁棒训练方法，即 Fast Triplet Metric Learning (FTML)，通过采用三元组度量学习来让相似的样本在嵌入空间中的表示更接近，并与其敌对样本有类似的表示，从而提高自然语言处理模型在对抗攻击下的鲁棒性。实验证明，该方法不仅有效地提高了模型的鲁棒性，而且效率高，可在标准训练中引入很少的开销，具有很大的潜力来提高文本的鲁棒性。

Abstract

We attribute the vulnerability of natural language processing models to the fact that similar inputs are converted to dissimilar representations in the embedding space, leading to inconsistent outputs, and we propose a novel robust training method, termed Fast →

natural language processing robust training triplet metric learning adversarial attacks word embedding

发现论文，激发创造

抵御文本对抗攻击的快速对抗训练

通过在嵌入空间进行单步扰动生成和扰动初始化的研究，我们提出了一种快速对抗训练（FAT）方法，以改善模型在无同义词感知情况下的鲁棒性，实验证明 FAT 显著提高了 BERT 模型在各种攻击下的鲁棒性。

Jan, 2024

通过三元损失的对抗训练提高深度神经网络的鲁棒性

本文提出了一种名为 Adversarial Training with Triplet Loss 的算法，通过利用距离度量学习技术中的 Triplet Loss 方法，提高了深度神经网络的鲁棒性，并在此基础上提出了一个集合版本的算法，可以取得更好的防御效果。同时，作者还证明了此三元组损失可以用于提高其他防御方法的性能。

May, 2019

基于边际三元组嵌入的对抗学习正则化

本研究提出了一种方法来提高深度神经网络的鲁棒性，即将基于局部平滑特征空间的三元组嵌入正则化术语整合到分类目标中，该正则化术语由两步优化组成，可以通过明显的大 Margin 惩罚来找到潜在的扰动。在实验中，我们的方法在 MNIST，CASIA-WebFace，VGGFace2 和 MS-Celeb-1M 数据集上的表现证明了其增强了网络对特征和标签对抗攻击的鲁棒性。

Sep, 2019

生成具有有效性和自然性的大型语言模型对抗样本

基于大型语言模型 (LLMs) 的语言理解和生成能力，我们提出了 LLM-Attack，旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异，能够生成通常有效、自然，并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。

Nov, 2023

通过手工制作的对抗性例子评估预训练语言模型的容易受攻击性

本文探讨了最新的预训练语言模型（PLMs），包括 GPT-3 和 BERT，存在安全漏洞，使其容易受到对抗性攻击的影响，并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。

Sep, 2022

通过预测和解释来提高模型的稳健性的对抗训练

本文提出了一种名为 FLAT 的特征级对抗性训练方法，该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致，从而提高模型对预测和解释方面的鲁棒性。

Mar, 2022

MetricBERT：通过自监督三元组训练学习文本表征

本文介绍了一种基于 BERT 的模型 MetricBERT，该模型通过学习嵌入文本并同时遵循传统的掩码语言任务，以在定义明确的相似度度量下进行。我们主要关注于推荐中的学习相似性的下游任务，表明 MetricBERT 在超越其他最先进的替代方法并取得显著优势方面出色地表现。此外，我们还发布了一个由领域专家制作的视频游戏描述数据集以及测试集的相似性注释。

Aug, 2022

RobustSentEmbed: 使用对抗自监督对比学习获得鲁棒的句子嵌入

本文介绍了 RobustSentEmbed，这是一个自监督的句子嵌入框架，旨在改善自然语言处理任务中的泛化能力和对抗性环境中的鲁棒性。通过生成高风险对抗扰动并利用新颖的目标函数，RobustSentEmbed 能够熟练学习高质量且鲁棒的句子嵌入。实验证实了 RobustSentEmbed 优于最先进的表示方法的优越性，尤其是对于各种对抗性攻击，BERTAttack 的成功率从 75.51% 降低至 38.81%。该框架还在语义文本相似性任务和各种迁移任务中分别实现了 1.59% 和 0.23% 的改进。

Mar, 2024

针对基于同义词替换的文本攻击的快速梯度投影方法中的对抗训练

本文提出了一种快速文本对抗攻击方法，称为基于同义词替换的快速梯度投影方法（FGPM），并将其与对抗性训练相结合，提出了一种文本防御方法，称为增强型 Logit 配对的对抗性训练（ATFL），实验证明，ATFL 可以显著提高模型的稳健性并阻止对抗性示例的可转移性。

Aug, 2020

为预训练语言模型重新思考文本对抗防御

针对预训练语言模型容易受到对抗攻击的问题，提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强，能够有效地弥补其他防御方法的不足，同时本研究也揭示了文本对抗攻击的本质，并提出了应该加强对谨慎攻击方法的研究。

Jul, 2022