FovEx：人类启发的视觉变换器和卷积神经网络解释方法

Aug, 2024

FovEx：人类启发的视觉变换器和卷积神经网络解释方法

FovEx: Human-inspired Explanations for Vision Transformers and Convolutional Neural Networks

Mahadev Prasad Panda, Matteo Tiezzi, Martina Vilas, Gemma Roig, Bjoern M. Eskofier...

TL;DR该研究解决了当前人工智能可解释性方法对特定模型架构的强依赖问题。提出了一种新的受人类视觉启发的可解释性方法FovEx，通过生物学启发的扰动与基于梯度的视觉探索相结合，以高效地定位模型的重要区域。研究表明，FovEx的解释图与人类注视模式一致性显著提高，展示了其在各种架构中的卓越性能和实际应用潜力。

Abstract

Explainability in artificial intelligence (XAI) remains a crucial aspect for fostering trust and understanding in machine learning models. Current visual explanation techniques, such as gradient-based or class-activation-based methods, often exhibit a strong dependence on specific mode

发现论文，激发创造

DeepFix: 一种用于预测人眼注视的全卷积神经网络

DeepFix是一种全新的卷积神经网络，可用于准确地预测显著性图，并集成了多尺度语义和全局上下文，并通过引入Location Biased卷积层来解决空间不变性问题，其表现优越。

Oct, 2015

SideEye: 基于生成神经网络的人类外围视觉模拟器

本文提出了一种基于生成神经网络的外围视觉模拟方法，该方法能够实现对局部纹理统计学的快速测量，并为视觉设计提供一种全新的方法。

Jun, 2017

机器凝视背后: 带有生物启示约束的神经网络表现出类似于人类的视觉关注

本文提出了神经视觉注意力算法（NeVA），并利用仿生视觉约束在神经网络上实现了类人的扫描路径生成。实验结果表明，该方法在类人扫描路径相似性方面优于现有无监督的人类注意力模型，同时可灵活地研究不同任务对视觉行为的影响，并在考虑不完美的视觉条件下的实际应用中表现出明显的优势。

Apr, 2022

感知可视化：透过深度神经网络的视角看世界

该论文的研究内容主要涵盖了人工智能、深度神经网络、可解释AI、视知觉技术以及深度模型的调试等领域。论文提出的Perception Visualization技术通过可视化深度模型对于输入图像的感知来解释模型预测结果，研究发现人类能够更好地理解和预测系统决策，从而使深度模型的调试和部署更加可靠。

Apr, 2022

深度视觉建模中可解释人工智能的调查：方法和度量

本文是可解释人工智能领域的第一篇调查研究，探讨了深度视觉模型解释方法和度量标准，提供了现有技术的分类组织，阐述了不同属性的度量方法，并就当前趋势、挑战和未来方向进行了深入讨论。

Jan, 2023

基于人类注意力引导的可解释人工智能计算机视觉模型

研究将人的注意力知识融入到基于显著性的XAI（可解释人工智能）方法中，以增强计算机视觉模型的合理性和可靠性，并开发了新的基于梯度的XAI方法来生成物体特定的解释，并使用可训练的激活函数和平滑核来最大化XAI显著图与人类注意图的相似性，从而在物体检测模型中同时提高了可靠性和合理性。

May, 2023

视觉解释的可解释人工智能基准

深度学习算法的崛起在计算机视觉任务中取得了重大进展，但它们的“黑匣子”性质引发了对可解释性的关注。可解释人工智能（XAI）作为一个重要的研究领域出现，旨在打开这个“黑匣子”，并揭示人工智能模型的决策过程。视觉解释作为可解释人工智能的一个子集，通过突出显示输入图像中的重要区域，为处理视觉数据的人工智能模型的决策过程提供直观的见解。我们提出了一个XAI基准，其中包括来自不同主题的数据集集合，为图像提供了类别标签和相应的解释注释。我们引入了一个全面的视觉解释流程，在这个流程中整合了数据加载、预处理、实验设置和模型评估过程。此结构使研究人员能够公平比较各种视觉解释技术。此外，我们对视觉解释的超过10种评估方法进行综合评述，以帮助研究人员有效利用我们的数据集合。为了进一步评估现有的视觉解释方法的性能，我们使用各种以模型为中心和以真实标注为中心的评估指标在选定的数据集上进行实验。我们希望这个基准可以推动视觉解释模型的进步。这个XAI数据集合和用于评估的易于使用的代码公开可访问。

Oct, 2023

深度学习时代的凝视

本文介绍了一种使用视锥传感器主动关注视觉场景的方法，并提出了一种端到端可区分的视锥主动视觉架构，该架构利用图卷积网络处理视锥图像，并提供一种简单而有效的视锥图像采样形式。我们的模型通过学习迭代地关注与分类相关的图像区域。我们在多个图像数据集上进行了详细实验，比较了我们的方法与先前的视锥视觉方法的性能，同时还测量了不同选择（如视锥程度和网络执行的固定点数）对目标识别性能的影响。我们发现，我们的模型在具有可比参数和给定像素或计算预算的最先进CNN和视锥视觉架构上表现更好。

Dec, 2023

CoProNN:基于概念的原型最近邻方法解释视觉模型

该研究提出了一种通过生成基于概念的原型来解释计算机视觉模型预测的方法，该方法可以快速创建领域专家可直观理解的基于概念的解释。通过与其他基于概念的解释方法的对比，该方法在粗粒度图像分类任务上表现出很好的竞争力，并且在更具挑战性的细粒度任务上甚至可能表现更优。该方法在人机协作环境中通过定性和定量用户研究证明其有效性。

Apr, 2024

GazeXplain：学习预测视觉扫描路径的自然语言解释

本研究解决了传统视觉扫描路径模型缺乏对注视背后原因的解释这一问题，通过提出GazeXplain方法，利用注意力-语言解码器共同预测扫描路径和生成解释。此外，提出的语义对齐机制和跨数据集共同训练方法显著提高了模型的适应性和一致性，实验结果表明GazeXplain在扫描路径预测与解释方面具有有效性，促进了对人类视觉注意力和认知过程的理解。

Aug, 2024