本文介绍了一种灵活的编程语言,可以帮助用户指定字符串转换,使模型具有对抗性的鲁棒性。我们的方法将搜索和抽象技术相结合,通过将一组用户定义的字符串转换分解为两个组件来达到鲁棒性。在 AG 和 SST2 数据集上的实验表明,该方法可以使模型具有能够应对用户定义的拼写错误等字符串转换的鲁棒性。
Feb, 2020
针对自然语言处理领域中的同义词替换攻击问题,提出了一种基于随机平滑技术的认证鲁棒性方法,能证明某些输入不能通过任何同义词替换被修改,可以应用于各种预训练模型,在 IMDB 和亚马逊文本分类任务上表现优异,创造了 BERT 系统鲁棒性认证的最佳效果。
May, 2020
本文利用 Interval Bound Propagation(IBP)训练了第一个能够抵御包括词语替换在内的 label-preserving 转换攻击的 NLP 模型,该模型在情感分析与自然语言推理任务上取得了 75% 的对抗准确率,远高于传统训练模型和数据增广训练模型的 8% 和 35%。
Sep, 2019
本文提出采用对抗性稳定性训练来提高神经机器翻译 (NMT) 模型的鲁棒性,通过使编码器和解码器在输入和其扰动版本的情况下行为相似,进而提高模型的容错性。在汉英、英德和英法翻译任务中的实验结果表明,该方法不仅可以显著提高强 NMT 系统的翻译品质,而且可以增强 NMT 模型的鲁棒性。
May, 2018
本文提出了一种适用于 Transformer 的鲁棒性验证算法,证明了其结果远优于 Interval Bound Propagation 算法,帮助理解了情感分析中不同单词的重要性。
研究表明,在源代码模型中,深度神经网络容易受到对代码功能保留的参数语义程序转换序列引起的对抗性示例的影响,我们发现对抗性训练可以显著提高模型的鲁棒性。
本研究考虑了如何证明深度神经网络对真实世界的分布转化具有鲁棒性,提出了一种基于神经符号学的验证框架,并采用生成模型学习数据扰动,解决了现有验证方法对于许多最先进生成模型的 sigmoid 激活函数的处理问题,实验结果表明,该框架在 MNIST 和 CIFAR-10 数据集上能够显著优于现有方法,可以有效应对各种严峻的分布转化挑战。
Jun, 2022
本文提出了一种新的针对大型语言模型的认证健壮方法,提高了模型的认证健壮性和预测稳定性,比现有认证方法表现更优秀,实验结果表明该方法在经验证健壮性和实证健壮性方面均优于现有认证方法。
Jul, 2023
探讨语言模型对输入扰动的敏感性以及通过不同训练策略来提高模型性能和鲁棒性的方法,通过在 Tabular-NLI 任务中的实例验证了该模型可对抗不同的扰动而不降低准确性。
Nov, 2023
我们提出了 STR-Cert,这是一种用于固定、比较 STR 模型的序列预测问题的认证方法,通过扩展 DeepPoly 多面体验证框架来证明 STR 模型的鲁棒性,并针对 Vision Transformer 模型进行了验证。