ViTree: 專業化合成神經樹用於逐步解釋微細化視覺分類

Jan, 2024

ViTree: 專業化合成神經樹用於逐步解釋微細化視覺分類

ViTree: Single-path Neural Tree for Step-wise Interpretable Fine-grained Visual Categorization

Danning Lao, Qi Liu, Jiazi Bu, Junchi Yan, Wei Shen

TL;DR综合应用于各个领域的计算机视觉不断发展，对深度学习模型的可解释性提出了迫切要求。本研究提出了一种新颖的方法 ViTree，用于细粒度视觉分类，该方法将流行的视觉转换器作为特征提取骨干，与神经决策树相结合。通过遍历树路径，ViTree 有效地从转换器处理的特征中选择补丁，突出显示有信息的局部区域，从而逐步改进表示。相比于以前依赖软分布或路径集合的基于树的模型，ViTree 选择单一树路径，提供了更清晰简单的决策过程。这种补丁和路径选择性增强了 ViTree 模型的可解释性，使其能更好地理解模型的内部工作机制。经过广泛实验证明，这种简化的方法超越了各种强有力的竞争对手，并在维持卓越可解释性的同时取得了最新的性能，这一点通过多视角方法得到了证明。

Abstract

As computer vision continues to advance and finds widespread applications across various domains, the need for interpretability in deep learning

computer vision interpretability deep learning models vitree fine-grained visual categorization

发现论文，激发创造

神经原型树用于可解释的细粒度图像识别

本研究提出了神经原型树（ProtoTree）方法，将原型学习与决策树相结合，从而通过设计在全局上产生可解释的模型。此外， ProtoTree 可以通过在树中勾勒一个决策路径来在本地解释单个预测并通过集成方法、修剪和二值化调整准确性与可解释性的权衡。

Dec, 2020

图像分类中的可视化树卷积神经网络

本文提出的 Visual Tree Convolutional Neural Networks (VT-CNN) 模型是在原有的深度卷积神经网络中嵌入了混淆语义级别信息而构建的，通过混淆可视化树 (CVT) 来识别混淆类别并提高对这些混淆类别的分类准确性，在 CIFAR-10 和 CIFAR-100 数据集上进行的实验结果表明，我们的 VT-CNN 模型比基准 CNN 模型分别提高了 1.36%、0.89% 和 0.64%。

Jun, 2019

通过特征空间分割窥视深度神经网络

本文提出了一种通过构建树形结构，实现对复杂模型进行分级分区并揭示其迭代拒绝可能的类标签的过程，以达到在不影响模型准确性的前提下实现模型解释性的方法。

Nov, 2016

探索 Vision Transformers 用于细粒度分类

研究提出了一种多阶段的 Vision Transformer 框架，用于细粒度图像分类，可在不需要架构变化的情况下定位信息图像区域。 Attention-guided 增强技术提高了模型性能，并在四个流行的细粒度基准测试中进行了实验，同时通过定性结果证明了模型的可解释性。

Jun, 2021

细粒度视觉分类的注意力卷积二元神经树

本文提出了一种基于关注的卷积二叉神经树框架，并使用路由功能、注意力变换器模块以及负对数似然损失函数等处理技术来解决细粒度视觉分类中遇到的问题，在多个标准数据集上的实验结果表明该方法性能优于先前提出的方法。

Sep, 2019

使用半监督学习和视觉 Transformer 的细粒度分类迁移学习

本研究探讨了 Semi-ViT，一种使用半监督学习技术微调 ViT 模型的图像分类方法，该方法更适用于缺乏注释数据的情况，特别是在电子商务等领域。我们的研究发现，即使在有限的注释数据的情况下，Semi-ViT 的性能也优于传统卷积神经网络（CNN）和 ViT。这些发现表明，Semi-ViT 在需要精细分类视觉数据的应用领域具有重要的应用前景。

May, 2023

Nested-TNT: 多尺度特征处理的分层视觉 Transformer

Transformer 在计算机视觉领域得到应用，其在自然语言处理方面表现出色，超越了传统卷积神经网络并取得了新的最先进结果。通过将图像分割成多个局部补丁，即 “视觉句子”，ViT 实现了这一目标。然而，图像所包含的信息是庞大而复杂的，仅关注 “视觉句子” 级别的特征是不够的。为了进一步提高性能，TNT 模型提出了进一步划分图像为更小的补丁，即 “视觉词”，得到了更准确的结果。Transformer 的核心是多头注意力机制，传统的注意力机制忽略了不同注意力头之间的相互作用。为了减少冗余并提高利用率，我们引入了嵌套算法，并将 Nested-TNT 应用于图像分类任务。实验证实，所提出的模型在数据集 CIFAR10 上比 ViT 和 TNT 分别提高了 2.25%、1.1%，在数据集 FLOWERS102 上分别提高了 2.78%、0.25% 的分类性能。

Apr, 2024

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021

从路径集合的角度重新审视视觉 Transformer

Vision Transformers（ViTs）可以被看做包含多条不同长度的平行路径的集合网络，通过路径修剪和自我蒸馏技术来优化路径组合，提供高质量的特征表示，并且充当高通滤波器以过滤部分低频信号。

Aug, 2023

Conviformers: 基于卷积引导的视觉 Transformer

该论文提出了一种新的分类方法，使用 Conviformer 和 PreSizer 处理高维度植物图像，实现细粒度植物图像分类，最终在 Herbarium 和 iNaturalist 数据集上取得了 SoTA 效果。

Aug, 2022