抗击单词级对抗性攻击的文本嵌入
通过在嵌入空间进行单步扰动生成和扰动初始化的研究,我们提出了一种快速对抗训练(FAT)方法,以改善模型在无同义词感知情况下的鲁棒性,实验证明 FAT 显著提高了 BERT 模型在各种攻击下的鲁棒性。
Jan, 2024
本文提出了一种名为 Adversarial Training with Triplet Loss 的算法,通过利用距离度量学习技术中的 Triplet Loss 方法,提高了深度神经网络的鲁棒性,并在此基础上提出了一个集合版本的算法,可以取得更好的防御效果。同时,作者还证明了此三元组损失可以用于提高其他防御方法的性能。
May, 2019
本研究提出了一种方法来提高深度神经网络的鲁棒性,即将基于局部平滑特征空间的三元组嵌入正则化术语整合到分类目标中,该正则化术语由两步优化组成,可以通过明显的大 Margin 惩罚来找到潜在的扰动。在实验中,我们的方法在 MNIST,CASIA-WebFace,VGGFace2 和 MS-Celeb-1M 数据集上的表现证明了其增强了网络对特征和标签对抗攻击的鲁棒性。
Sep, 2019
基于大型语言模型 (LLMs) 的语言理解和生成能力,我们提出了 LLM-Attack,旨在使用 LLMs 生成既有效又自然的对抗性示例。实验结果表明 LLM-Attack 比基线模型在人类和 GPT-4 评估中表现优异,能够生成通常有效、自然,并保留语义意义、语法正确性和人类不可察觉性的对抗性示例。
Nov, 2023
本文探讨了最新的预训练语言模型(PLMs),包括 GPT-3 和 BERT,存在安全漏洞,使其容易受到对抗性攻击的影响,并提出了一种有效的对抗方法来测试模型的语义相似性并减少其分类质量。
Sep, 2022
本文提出了一种名为 FLAT 的特征级对抗性训练方法,该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致,从而提高模型对预测和解释方面的鲁棒性。
Mar, 2022
本文介绍了一种基于 BERT 的模型 MetricBERT,该模型通过学习嵌入文本并同时遵循传统的掩码语言任务,以在定义明确的相似度度量下进行。我们主要关注于推荐中的学习相似性的下游任务,表明 MetricBERT 在超越其他最先进的替代方法并取得显著优势方面出色地表现。此外,我们还发布了一个由领域专家制作的视频游戏描述数据集以及测试集的相似性注释。
Aug, 2022
本文介绍了 RobustSentEmbed,这是一个自监督的句子嵌入框架,旨在改善自然语言处理任务中的泛化能力和对抗性环境中的鲁棒性。通过生成高风险对抗扰动并利用新颖的目标函数,RobustSentEmbed 能够熟练学习高质量且鲁棒的句子嵌入。实验证实了 RobustSentEmbed 优于最先进的表示方法的优越性,尤其是对于各种对抗性攻击,BERTAttack 的成功率从 75.51% 降低至 38.81%。该框架还在语义文本相似性任务和各种迁移任务中分别实现了 1.59% 和 0.23% 的改进。
Mar, 2024
本文提出了一种快速文本对抗攻击方法,称为基于同义词替换的快速梯度投影方法(FGPM),并将其与对抗性训练相结合,提出了一种文本防御方法,称为增强型 Logit 配对的对抗性训练(ATFL),实验证明,ATFL 可以显著提高模型的稳健性并阻止对抗性示例的可转移性。
Aug, 2020
针对预训练语言模型容易受到对抗攻击的问题,提出了一种基于异常检测和随机化的通用防御框架。该框架针对性不强,能够有效地弥补其他防御方法的不足,同时本研究也揭示了文本对抗攻击的本质,并提出了应该加强对谨慎攻击方法的研究。
Jul, 2022