该研究拓展了深度学习可解释性领域的基础,引入了必要性、充分性和比例概念等新的度量方法研究输入归因,以便比较不同方法和解释结果。研究评估了用于图像分类的不同CNN解释方法在必要性和充分性方面的表现。
Feb, 2020
该研究提出一种名称为FAR的新型范式,用于通过在输入的局部领域内最小化属性映射的最大差异来训练模型的鲁棒属性。通过新模型AAT和AdvAAT的实验表明,所提出的方法在对抗干扰下都更有稳健性。
Oct, 2020
该研究论文旨在提出一种强健的归因训练策略来提高深度神经网络的归因鲁棒性,针对近年来的研究表明,尽管这些模型被给予两张非常相似的图像,但其产生的归因图可能会有很大的不同,从而引发了对其可信度的质疑。这个方法通过引入保护模型归因图免受攻击的两个新的正则器来提高归因鲁棒性,并在多个数据集上超越了最先进的归因鲁棒性方法。
Dec, 2020
本研究第一次进行用户研究来证明特征归因图对于ImageNet分类和Stanford Dogs细粒度分类的辅助作用,在更难的分类任务上,特征归因图并没有帮助,相反会降低人工智能和人类团队的性能,并且自动特征归因图评估指标与实际人工智能-人类团队的表现相关性较差,本研究提倡社区在人机互动的应用中对他们的方法进行严格的测试,并重新思考现有的评估指标。
May, 2021
本研究通过使用归因地图的方法,系统性地揭示数据偏差,从而证明了某些归因地图技术比其他技术更好地凸显了数据中的偏差,并且度量可以支持发现偏差。
Jul, 2021
本文提出了一种新的本地特征归因方法评估框架Remove and Debias (ROAD),该框架通过减少信息泄漏和消除计算昂贵的重新训练步骤,为不同的归因技术提供高一致性的评估。
Feb, 2022
本文提出三种新的评估方案来衡量影响深度神经网络决策的图像区域,以及平衡各种评估方法之间的比较,并提出一个后处理平滑步骤来改善一些归因方法的性能。
May, 2022
本研究提出了三种评估方案以更可靠地衡量不同的图像归因方法的可信度,并在一系列模型上研究了一些广泛使用的归因方法的优缺点,并提出一种后处理平滑步骤以显著提高某些归因方法的性能。
Mar, 2023
介绍了一个新的方法——Wavelet sCale Attribution Method(WCAM),在像素域到空间-比例域进行了属于度量,并解释了这些模型在图像失真上失败的原因,提高了用户对模型的信任。
May, 2023
本研究旨在检验特征归因法在不同深度学习架构模型间的泛化能力,以及探索归一化的特征解释方法在提高机器学习应用的可解释性和信任度方面的潜力。
Jul, 2023