基于文本多样性流形的自然语言对抗样本防御
通过在图像的潜在空间中对对抗样本进行对抗训练以及利用生成模型中学习到的流形信息进行双流形对抗训练,可以大大提高深度学习模型的鲁棒性,从而有效地应对多种新颖的对抗攻击。
Sep, 2020
提出了基于掩蔽语言模型的检测方法(MLMD),用于区分正常示例和对抗攻击示例,通过探索被掩蔽语言模型引起的流形变化产生明显可区分的信号,并且在各种基准文本数据集、机器学习模型和最先进的对抗攻击上都表现出强大的性能。
Apr, 2023
提出了一种有监督的语义转换生成模型,用于生成具有真实和合法语义的对抗性样本,实现了从非对抗性样本到对抗性样本的合法过渡。实验结果表明,生成的对抗性样本不仅具有更好的视觉质量,还实现了更高的攻击可迁移性和更有效的模型漏洞解释。
Feb, 2024
本文提供了一种可计算、直接且数学严谨的方法,用于近似高维数据的类流形的微分几何,以及从输入空间到这些类流形的非线性投影。该方法应用于神经网络图像分类器的设置中,在流形上生成新颖的数据样本,并实现了流形上的对抗训练的投影梯度下降算法,以解决神经网络对对抗性攻击的敏感性问题。
Aug, 2023
本文提出一种多项式对抗网络(MAN)用于处理多域文本分类问题(MDTC), MAN 学习在多个域上保持不变的特征,并通过减少每个域特征分布之间的差异来实现。MAN 在实验中取得了显著的性能提升,并且在无标签数据的域中达到了最先进的性能水平。
Feb, 2018
本文提出两种反应式方法来检测 NLP 中的文字对抗样本,使用分布特征学习表示的 LID 和 MDRE 方法取得了 IMDB 和 MultiNLI 数据集上字符级、词级、短语级攻击领域的最新成果。
Apr, 2022
本文提出了一种利用 spanners 的新型攻击方法,通过搜索潜在的编码对,寻找生成在不同分类器输出下具有相似图像的对立范例,从而比传统扰动真实图像的攻击更具优势,在实验中,该攻击成功将 Defense-GAN 的准确率降至 3%,而且该技术与普通的对抗训练相结合,可以获得现有最强的 MNIST 分类器。
Dec, 2017
本文提出了一种新的方法来找到和规范称为流形之外的剩余空间,利用两个从实际观察到的单词获得的嵌入,我们合成了流形之外的嵌入,训练鉴别器检测输入的嵌入是否位于流形之内,同时优化生成器。通过在各种文本分类基准上进行全面评估,证明了我们的方法的有效性以及其良好兼容性。
May, 2021
通过全局流形的视角考虑深度神经网络对抗攻击的模型鲁棒性问题,提出了一种新的对抗训练方法 ATLD,该方法在不受监督的情况下,利用了本地和全局潜在信息,通过对抗游戏生成潜在流形对抗性实例,保留了流形的局部和全局信息,具有良好的鲁棒性,实验结果表明该方法在多个数据集上显著优于现有技术。
Jul, 2021
本文提出了一种将梯度攻击方法应用于文本领域的框架,通过在嵌入空间中搜索对抗样本来解决离散输入空间中的困难,并使用 Word Mover's Distance(WMD)量化对抗性文本的质量,实验证明该框架可以成功生成高质量的对抗性文本。
Jan, 2018