本文提出了一种改进神经网络分类器特征可解释性的方法,将对抗鲁棒性引入模型训练过程,并通过评估真实边界框和可视化方法量化特征可解释性,在 NIH ChestX-ray14 数据集上进行了实验,并展示了对抗鲁棒优化方法在定量和定性上提高了特征可解释性。
May, 2019
通过在 MNIST、CIFAR-10 和 Restricted ImageNet 上进行实验,本文在理论上证明了防止预测侵蚀性对抗攻击导致解释差异的正确解释度量是很困难的,并开发了一种仅基于促进稳健解释的解释敏感的防御方案。与对抗训练方法相比,在对大扰动攻击的抵抗中,本文的防御方法实现了稳健分类和稳健解释,表现优于最先进的对抗训练方法。
Jun, 2020
最近在机器学习和深度学习研究领域的重大突破为利用海量数据和优化包含数百万参数的庞大模型以获得图像处理方面的准确网络提供了出色的工具,进而为在自动化和人工智能行业中使用人工智能打开了巨大的机遇。然而,随着越来越多的模型在实践中得到部署和使用,也出现了许多挑战。本文介绍了解决在实践中使用机器学习和深度学习所面临的鲁棒性和可解释性挑战的多种方法。
Mar, 2024
本文探讨了敌对训练对 DNN 的梯度提升及其可解释性的影响,发现敌对训练能够使得损失梯度更加符合人类感知,且提出了在测试准确性和损失梯度可解释性之间的权衡以及解决方案。
Mar, 2019
本文研究了对抗训练的对抗攻击容忍性与隐私攻击容忍性之间的关系,通过对 CIFAR-10 数据集进行三种不同类型的模型反演攻击,揭示了对抗训练模型输入空间存在的问题。
Jun, 2019
本研究旨在通过减少神经元的不确定性,提高 DNNs 在整个图像空间的可解释性。通过提出一个新的度量方式、利用对抗样本发现学习后的神经元特征具有歧义性,以及通过一种有着一致性损失的对抗训练算法来提高对抗样本子集上的神经元的一致性
Jan, 2019
本文提出了一种名为 FLAT 的特征级对抗性训练方法,该方法旨在通过正则化全局词重要性分数来调节模型在替换词及其同义词的原始 / 对抗性示例对中的理解保持一致,从而提高模型对预测和解释方面的鲁棒性。
Mar, 2022
本研究提出了一种用于解释深度学习的可靠技术,并证实该方法对付对抗性攻击具有可靠性。
本文提出了一种基于 Saliency map 的对抗训练方法(SAT),通过使用详细的弱显著性图(如边界框和分割掩码)来改进模型的对抗鲁棒性,同时展示了如何进一步提高性能。
本文研究神经网络的对抗漏洞,证明模型对抗攻击的鲁棒性与显著图的对齐程度正相关,使用局部 Lipschitz 正则化训练模型进行实验并分析神经网络的非线性特性对此关系的影响。