探索 Vision Transformers 用于细粒度分类
本文提出了一个基于 Transformer 的框架,通过聚合特征来处理细粒度视觉分类任务,其中引入了一种新的令牌选择模块(MAWS)来引导网络有效地选择具有判别性的令牌,从而实现了最先进的性能。
Jul, 2021
本文介绍了一个基于 Vision Transformer 和 Part Selection Module 的模型 ——TransFG,可以有效提取重要的图像特征,应用于 Fine-grained visual classification,实现了最先进的表现。
Mar, 2021
本文提出了一个简单而有效的 Salient Mask-Guided Vision Transformer(SM-ViT)方法来在精细 - grained 视觉分类(FGVC)问题中捕捉潜在的可区分特征,进而提高视觉 Transformer 模型的分类性能。实验证明,SM-ViT 比现有的基于 ViT 的方法表现更优秀,需要更少的资源和较低的输入图像分辨率。
May, 2023
本研究探讨了 Semi-ViT,一种使用半监督学习技术微调 ViT 模型的图像分类方法,该方法更适用于缺乏注释数据的情况,特别是在电子商务等领域。我们的研究发现,即使在有限的注释数据的情况下,Semi-ViT 的性能也优于传统卷积神经网络(CNN)和 ViT。这些发现表明,Semi-ViT 在需要精细分类视觉数据的应用领域具有重要的应用前景。
May, 2023
本文提出了一种粗到细的 CF-ViT,实现视觉图像的快速识别,具有较高的计算效率,可以支持小长度的词条序列,大大减少了计算成本。
Mar, 2022
本文提出了一种采用金字塔结构和新的区域到局部注意力的视觉 transformer(ViT)架构,可以在图像分类和目标检测等四个任务上优于目前最先进的视觉 transformer(ViT)变体。
Jun, 2021
本文旨在研究 Vision Transformer 对常见的图像扰动、分布偏移和自然对抗样本的稳健性,并在六个不同的 ImageNet 数据集上与 SOTA 卷积神经网络进行性能比较,通过一系列六个系统设计的实验,提供了定量和定性的分析来解释 ViT 为什么是更加稳健的学习器。
May, 2021
该论文提出了一种新的分类方法,使用 Conviformer 和 PreSizer 处理高维度植物图像,实现细粒度植物图像分类,最终在 Herbarium 和 iNaturalist 数据集上取得了 SoTA 效果。
Aug, 2022
我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法,该方法能够为其决策提供高级语义解释,并以类标签为唯一的输入,具备出色的定位性能,在弱监督定位任务中胜过了之前领先的解释方法,并具备捕获目标类对象的完整实例的能力
Feb, 2024