探索 Vision Transformers 用于细粒度分类

CVPRJun, 2021

探索 Vision Transformers 用于细粒度分类

Exploring Vision Transformers for Fine-grained Classification

Marcos V. Conde, Kerem Turgutlu

TL;DR研究提出了一种多阶段的 Vision Transformer 框架，用于细粒度图像分类，可在不需要架构变化的情况下定位信息图像区域。 Attention-guided 增强技术提高了模型性能，并在四个流行的细粒度基准测试中进行了实验，同时通过定性结果证明了模型的可解释性。

Abstract

Existing computer vision research in categorization struggles with fine-grained attributes recognition due to the inherently high intra-class variances and low inter-class variances. SOTA methods tackle this challenge by locating the most →

computer vision fine-grained image classification multi-stage vision transformer informative image regions attention-guided augmentations

发现论文，激发创造

特征融合视觉 Transformer 用于细粒度视觉分类

本文提出了一个基于 Transformer 的框架，通过聚合特征来处理细粒度视觉分类任务，其中引入了一种新的令牌选择模块（MAWS）来引导网络有效地选择具有判别性的令牌，从而实现了最先进的性能。

Jul, 2021

TransFG: 用于细粒度识别的 Transformer 架构

本文介绍了一个基于 Vision Transformer 和 Part Selection Module 的模型 ——TransFG，可以有效提取重要的图像特征，应用于 Fine-grained visual classification，实现了最先进的表现。

Mar, 2021

基于显著掩膜引导的视觉 Transformer 用于细粒度分类

本文提出了一个简单而有效的 Salient Mask-Guided Vision Transformer（SM-ViT）方法来在精细 - grained 视觉分类（FGVC）问题中捕捉潜在的可区分特征，进而提高视觉 Transformer 模型的分类性能。实验证明，SM-ViT 比现有的基于 ViT 的方法表现更优秀，需要更少的资源和较低的输入图像分辨率。

May, 2023

使用半监督学习和视觉 Transformer 的细粒度分类迁移学习

本研究探讨了 Semi-ViT，一种使用半监督学习技术微调 ViT 模型的图像分类方法，该方法更适用于缺乏注释数据的情况，特别是在电子商务等领域。我们的研究发现，即使在有限的注释数据的情况下，Semi-ViT 的性能也优于传统卷积神经网络（CNN）和 ViT。这些发现表明，Semi-ViT 在需要精细分类视觉数据的应用领域具有重要的应用前景。

May, 2023

图像分类任务中视觉 Transformer 的全面研究

综述了关于视觉变换器用于图像分类的现有研究，包括图像分类数据集，视觉变换器模型的发展历程和未来研究机会。

Dec, 2023

CF-ViT: 一种通用的视觉 Transformer 粗细递进方法

本文提出了一种粗到细的 CF-ViT，实现视觉图像的快速识别，具有较高的计算效率，可以支持小长度的词条序列，大大减少了计算成本。

Mar, 2022

RegionViT: 基于区域到局部的视觉转换器注意力机制

本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer（ViT）架构，可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer（ViT）变体。

Jun, 2021

视觉 Transformers 是强大的学习器

本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性，并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较，通过一系列六个系统设计的实验，提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。

May, 2021

Conviformers: 基于卷积引导的视觉 Transformer

该论文提出了一种新的分类方法，使用 Conviformer 和 PreSizer 处理高维度植物图像，实现细粒度植物图像分类，最终在 Herbarium 和 iNaturalist 数据集上取得了 SoTA 效果。

Aug, 2022

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法，该方法能够为其决策提供高级语义解释，并以类标签为唯一的输入，具备出色的定位性能，在弱监督定位任务中胜过了之前领先的解释方法，并具备捕获目标类对象的完整实例的能力

Feb, 2024