深度学习中的可证明鲁棒解释
通过使用基于显著性引导的训练(SGT)技术,研究表明它对深度学习模型的鲁棒性和可解释性有显著提升,并提出了一种将 SGT 与标准对抗训练相结合的方法,在确保显著性图质量的同时,实现更大程度的鲁棒性。该方法取得了显著进展,在 MNIST 和 CIFAR-10 数据集上,对于 PGD 攻击的噪声幅度分别为 0.2 和 0.02 时,鲁棒性提高了 35%和 20%,同时生成高质量的显著性图。
May, 2024
通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验,本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的,并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比,在对大扰动攻击的抵抗中,本文的防御方法实现了稳健分类和稳健解释,表现优于最先进的对抗训练方法。
Jun, 2020
本文提出了一种基于 Saliency map 的对抗训练方法(SAT),通过使用详细的弱显著性图(如边界框和分割掩码)来改进模型的对抗鲁棒性,同时展示了如何进一步提高性能。
Jun, 2020
本文提出了一种改进神经网络分类器特征可解释性的方法,将对抗鲁棒性引入模型训练过程,并通过评估真实边界框和可视化方法量化特征可解释性,在 NIH ChestX-ray14 数据集上进行了实验,并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。
May, 2019
本文探究了解释深度学习预测的方法对于随机扰动的敏感性,发现即使对于具有同一预测标签的两个感官不可分的输入,这些方法也会得出非常不同的解释结果,并分析了导致这种脆弱性的几何原因。
Oct, 2017
本文研究神经网络的对抗漏洞,证明模型对抗攻击的鲁棒性与显著图的对齐程度正相关,使用局部 Lipschitz 正则化训练模型进行实验并分析神经网络的非线性特性对此关系的影响。
May, 2019
本文研究深度神经网络的鲁棒性问题,特别关注对抗样本的攻击。通过在线显著特征训练,得到视觉可解释性的特征,但实验结果显示,这些特征并不能提升模型对抗样本攻击的性能。
Jun, 2023
通过对简单梯度方案进行稀疏性及连接性调整,采用对抗训练作为一种内部处理方案,设计并展示了基于正则化的对抗训练方法对标准神经网络架构在基准图像数据集上的梯度图产生的影响。
Apr, 2024
本研究提出了一种基于光滑景观的预测且稳定的神经网络模型解释方法,通过批量学习噪声复制品并采用 L1 规范化方法对显著性地图进行训练,使模型学习得到局部光滑模型解释,有效地找出与预测结果相关的输入要素并且在对抗样本测试中表现优异。
Mar, 2021