本文提出了一种基于深度神经网络特征的模型对抗性样本检测方法,并在多项实验中实现优异性能,尤其能有效检测攻击方法间的转换与混合置信水平的攻击样本。
Jun, 2019
提出一种基于永续度量的方法,通过创造高度扭曲网络特征空间的攻击来达到高度通用的敌对样本,旨在打破相对有限的目前攻击的限制,并可将其通过多个网络扩展到多个任务。
Nov, 2018
通过简单的监督式学习实验平台,发现在 CIFAR-10 和 MNIST 数据集中,可以区分使用不同攻击算法、模型和超参数生成的对抗攻击,并介绍了对抗攻击归因的概念。
Jan, 2021
文章提出了一种利用神经元归因进行特征级别攻击的方法,该方法可以更准确地计算神经元重要性,以提高对现有算法的性能。实验证明,该方法优于现有算法。
Mar, 2022
本文提出了一种针对图像分类器集合的迭代式对抗攻击方法,通过此方法,在 CAAD 2018 针对性对抗攻击竞赛中获得第五名,该方法提高了黑匣子对抗攻击的成功率。
本文介绍了一种通过强制表示不变性来提高深度神经网络对抗攻击鲁棒性的方法,并比较其与其他标准对抗训练方法的可行性。
Jan, 2018
该研究论文调查了针对多任务分类器中隐藏任务的攻击的可行性,提出了一种新颖的敌对攻击方法,利用非目标任务的知识和多任务模型的共享主干网络迫使模型遗忘与目标任务相关的知识,实验证明了该方法在削弱隐藏任务的准确性方面的有效性,并且保留了可见任务的性能,有助于了解多任务分类器中的敌对性漏洞。
May, 2024
使用涉及一系列方法来解释机器学习模型的决策,研究表明这种方法可以用于确定高属性特征的影响并检测出恶意攻击。
Mar, 2019
提出了一种动态扰动自适应对抗训练(DPAAT)方法,通过将对抗训练放置在动态学习环境中,生成自适应的数据级扰动,并通过损失信息收集提供动态更新的准则,从而在提高鲁棒性的同时保留高泛化能力。在皮肤科 HAM10000 数据集上进行全面测试,表明 DPAAT 不仅实现了更好的鲁棒性改善和泛化性能保留,还显著提高了各种 CNNs 的平均精度和解释能力,表现出作为通用医学影像分类中的一种潜在的强大的对抗训练方法。
Mar, 2024
深度神经网络的关键问题之一是对抗性攻击和转移性,考虑到安全性和未来的发展,需要加强对抗性漏洞的防御。
Oct, 2023