通过随机替换编码技术防御词级对抗攻击
该研究提出了一种名为同义词编码方法(SEM)的深度学习模型对抗防御方法,该方法可以有效地防御基于同义词替换的攻击,并且可以轻松高效地扩展到大型模型和大型数据集中。
Sep, 2019
本研究提出了一种基于 Randomized Substitution and Vote 方法的文本对抗样本检测技术,该技术能够有效地检测文本对抗样本,同时不影响神经网络在正常样本上的分类精度。
Sep, 2021
本文主要对深度神经网络在对抗攻击下的鲁棒性进行了研究,比较并提出了各种防御方法,最终提出了一种有效的方法提高神经文本分类器的鲁棒性,并在 AGNEWS 和 IMDB 数据集上取得了显著的最高准确率。
Aug, 2021
本文调查了针对 BERT 的四种基于词汇替换的攻击方法,结合人类评估和概率分析,发现 96% 至 99% 的攻击并不能维护语义,其成功性主要基于将质量较差的数据输入模型中。作者进一步提出了有效的数据增强方案,以防止许多对抗性攻击。最终,通过对词汇更换的约束条件设定更合理的阈值,作者得出结论:BERT 比攻击研究所说的要更加健壮。
Sep, 2021
提出 “Rebuild and Ensemble Framework” 方法用于针对自然语言处理任务中的对抗攻击,通过重新构建机制训练鲁棒性模型,并在推理期间集成已重新构建的文本以实现对抗性防御。实验证明,该方法能够提高在目前强对抗攻击方法下的准确性。
Mar, 2022
本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案,包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。
Feb, 2022
该研究通过提出对抗子单词规范化技术(ADVSR)探讨了在训练过程中是否可以使用梯度信号作为多样化子单词分割的替代标准,实验证明该技术可以有效地减少分割错误对神经机器翻译模型的影响,从而提高模型在低资源和外部数据集上的性能。
Apr, 2020
本文提出了一种随机遮挡的可证明鲁棒防御方法,对于 AGNEWS 数据集上五个词,SST2 数据集上两个词的任意扰动分类可以获得超过 50% 的证明鲁棒性,并在多个数据集上明显优于最近提出的防御方法。
May, 2021
本文提出了一种名为 RSE 的新型防御算法,利用随机性和集成两个重要概念,通过向神经网络中添加随机噪声层以防止强梯度攻击,并对随机噪声预测进行集成以稳定性能,从而保护目标模型。该算法在真实数据集上表现非常优异,能够有效防御对神经网络的攻击。
Dec, 2017