结合特征和实例归因来检测伪影
本研究第一次进行用户研究来证明特征归因图对于 ImageNet 分类和 Stanford Dogs 细粒度分类的辅助作用,在更难的分类任务上,特征归因图并没有帮助,相反会降低人工智能和人类团队的性能,并且自动特征归因图评估指标与实际人工智能 - 人类团队的表现相关性较差,本研究提倡社区在人机互动的应用中对他们的方法进行严格的测试,并重新思考现有的评估指标。
May, 2021
本研究探讨了利用特征归因方法进行机器学习的解释,提出通过修改数据集来产生真实归因的方法,并对三种常见的归因方法:显著性图、原理和注意力进行评估,发现这些方法在野外数据集中的正确性和可靠性值得怀疑,建议在部署前使用基准来测试新的归因方法。
Apr, 2021
本研究旨在检验特征归因法在不同深度学习架构模型间的泛化能力,以及探索归一化的特征解释方法在提高机器学习应用的可解释性和信任度方面的潜力。
Jul, 2023
本研究旨在研究 Annotation Artifacts 在大型预先训练的 NLP 模型中的表现,分析其在自然语言推断任务中的限制、通过数据增强技术解决注释工件所引起的偏差,以及评估该方法的有效性。
Feb, 2023
本文提出了一种结合梯度和属性方法的算法来提供逐类的可解释性,该算法在纠正显著特征的同时,通过反向投影来提供每像素的局部影响,并成功地证明了在各种基准测试上的优越性能,包括用于梯度方法评估的基准测试以及主要用于评估属性方法的基准测试,此外,本文还成功地证明了自监督方法可以学习语义信息。
Dec, 2020
本文提出了一种基于深度神经网络特征的模型对抗性样本检测方法,并在多项实验中实现优异性能,尤其能有效检测攻击方法间的转换与混合置信水平的攻击样本。
Jun, 2019
数据归因是理解机器学习模型的关键方法之一,我们提出了一种基于自监督学习预训练的最小化基线方法,对图像数据进行归因,这种方法计算成本低、内存占用少、易于扩展,且在 CIFAR-10 和 ImageNet 上实现了与现有方法相媲美甚至更好的性能。
Nov, 2023