- 健康有影响力的噪声训练以抵御数据投毒攻击
基于影响函数的健康影响噪声训练 (HINT) 是一种高效而强大的方法,用于防御数据中毒攻击,通过使用影响函数构造有助于加固分类模型的健康噪声,显著减少对测试数据的泛化能力影响,该方法在部分训练数据修改时也能有效执行,经过综合评估,HINT - APBench: 一种用于可用性毒化攻击和防御的统一基准
评估可用性中毒方法及其对隐私的保护能力,提出 APBench 用于评估对抗性中毒攻击的有效性
- 无敌傍门防御
我们提出了一个有效的防御框架,该框架在数据预处理过程中注入非对抗性后门,以抵御深度神经网络面对后门攻击的威胁。在多个基准测试和代表性攻击的广泛实验中,我们的方法实现了业界领先的防御效果,在干净数据上性能下降极低。鉴于我们的框架展示的惊人防御 - ICCV通过对抗双机器学习进行因果参数估计来减轻对抗性漏洞
本文介绍了一种因果方法 ADML,通过量化网络预测的敏感程度和影响,直接估计对抗攻击的因果参数,并在 CNN 和 Transformer 等不同架构上进行广泛实验,证明了 ADML 的优越性和可行性。
- ACL文本分类系统中的对抗清洁标签后门攻击与防御
本文主要介绍了一种新的对抗性干净标签攻击方法,可通过对类内训练样本的对抗性扰动对训练集进行污染,同时发现一些之前文本领域仅用于标签翻转攻击的防御方法并不一定在清洗标签攻击中有效,因此需要文本特定的防御方法。
- IJCAI自动说话人验证中的防御者视角:一综述
该研究论文旨在全面系统地概述自动说话者验证中用于防御欺诈攻击的方法,包括重播和合成语音,以及对抗性攻击和最近出现的部分假语音。
- 通过模型变异测试实现语言模型后门样本检测
本研究提出了一种基于深度模型突变测试的新型防御方法,可以在 char-level,word-level,sentence-level 以及 style-level 水平上检测恶意后门样本,并在三个基准数据集和三个样式转换数据集上表现出优异的 - 基于安全性考虑的近似尖峰神经网络
本文分析了不同结构参数和逼近级别下,近似 SNN 在两种梯度和两种神经攻击下的稳健性,并提出了两种新颖的防御方法,即精度缩放和逼近量化感知滤波(AQF),证明了 AQF 和精度缩放显著提高了 AxSNNs 的稳健性。
- EMNLPROSE:针对预训练语言模型的强韧性选择性微调
本文提出了一种称为 ROSE 的新颖的微调方法,该方法通过选择性更新参数,过滤无价值和非鲁棒性更新的参数,在下游自然语言处理任务中实现对抗鲁棒性的显着提高,并可以轻松地融入现有的微调方法中进一步提高其对抗鲁棒性。
- 重新构建和集成:探索防御文本对抗的方法
提出 “Rebuild and Ensemble Framework” 方法用于针对自然语言处理任务中的对抗攻击,通过重新构建机制训练鲁棒性模型,并在推理期间集成已重新构建的文本以实现对抗性防御。实验证明,该方法能够提高在目前强对抗攻击方法 - 使用随机扰动减缓情感分析模型的对抗攻击
本文介绍了使用随机扰动来对抗深度学习模型的攻击的解决方案,包括随机拼写纠正、随机同义词替换和随机删除单词等防御方法。这些方法成功地将被攻击的模型的准确性恢复到攻击之前的水平。
- AAAI通过验证嵌入的外部特征防御模型窃取
本文从外部特征的角度出发,通过渗透几个经过风格转换的训练样本嵌入外部特征,训练元分类器验证一个可疑模型是否包含被攻击者指定的外部特征知识,实验结果表明我们的方法可以有效地同时检测不同类型的模型窃取,即使窃取的模型是通过多阶段窃取过程获得的。
- 对抗鲁棒性的统一博弈理论解释
提供了一个统一的观点来解释不同的对抗性攻击和防御方法,即 DNNs 输入变量之间的多阶交互视图。基于多阶交互,我们发现对抗性攻击主要影响高阶交互来愚弄 DNN。此外,我们发现对抗性训练的 DNN 的鲁棒性来自类别特定的低阶交互。我们的发现提 - ICLR稀疏编码前端用于鲁棒神经网络
该研究提出了一种基于稀疏编码的前端防御方法,该方法在 CIFAR-10 数据集上的实验结果表明,相较于其它对抗训练方法,该方法对 Linf、L2 和 L1 攻击的抵御效果更好。
- ICLR物理世界中的后门攻击
本文分析了后门攻击的特点,提出当测试图像中的触发器与训练中使用的不一致时,该攻击模式会变得更加脆弱,并讨论了如何缓解这种漏洞,以期启发更多针对后门属性的研究,从而更好地设计先进的后门攻击和防御方法。
- 深度说话人识别系统的对抗攻击与防御策略
本文研究了深度说话人识别系统所面临的对抗攻击问题,尝试了多种防御方法,并且实验证明了对抗攻击可能会导致准确度降至 0%,并且发现了以投影梯度下降为基础的对抗训练方法是最好的防御手段。
- 重新审视对抗学习注入攻击对推荐系统的影响
研究了推荐系统中存在的一种被称为 “对抗性注入攻击” 的问题,攻击者通过注入虚假的用户行为来实现其目的,设计了一种生成虚假用户的优化问题的精确解决方案,并探讨了攻击传递性及其限制,在真实数据集上进行了实验,为防御这种可能出现的攻击提供了有用 - ICML提高 CNN 在变长 12 导联心电图分类中对噪声的鲁棒性
本研究设计了一个卷积神经网络,应用三种防御方法来提高对变长 ECG 信号的分类任务的鲁棒性,并且测试结果表明该 CNN 分类模型在干净数据上的准确率与 CPSC2018 ECG 分类挑战的前 6 项相当,并且改进了其对于对抗和白噪声的鲁棒性
- 通过迪利克雷邻域集成对抗 NLP 攻击的防御
本文提出 Dirichlet Neighborhood Ensemble (DNE) 方法,用于训练 Robust 模型以防御替换攻击,通过抽样 embedding 向量形成虚拟句子,并在训练集上增加确保模型在干净的原始数据上保持良好性能, - 自动驾驶模型的敌对攻击和防御分析
本文针对三种自动驾驶模型,分析了五种对抗性攻击和四种防御方法的效果。实验证明,与分类模型类似,这些模型仍然非常容易受到对抗性攻击,因此实践中应该考虑到这一点。对于系统和中间件构建者,需要同时部署多种防御方法来获得对各种攻击的良好覆盖。同时也