基于显著掩膜引导的视觉 Transformer 用于细粒度分类

May, 2023

基于显著掩膜引导的视觉 Transformer 用于细粒度分类

Salient Mask-Guided Vision Transformer for Fine-Grained Classification

Dmitry Demidov, Muhammad Hamza Sharif, Aliakbar Abdurahimov, Hisham Cholakkal, Fahad Shahbaz Khan

TL;DR本文提出了一个简单而有效的 Salient Mask-Guided Vision Transformer（SM-ViT）方法来在精细 - grained 视觉分类（FGVC）问题中捕捉潜在的可区分特征，进而提高视觉 Transformer 模型的分类性能。实验证明，SM-ViT 比现有的基于 ViT 的方法表现更优秀，需要更少的资源和较低的输入图像分辨率。

Abstract

fine-grained visual classification (FGVC) is a challenging computer vision problem, where the task is to automatically recognise objects from subordinate categories. One of its main difficulties is capturing the most discriminative inter-class variances among visually similar classes.

fine-grained visual classification vision transformer self-attention mechanism salient mask-guided vision transformer foreground regions

发现论文，激发创造

特征融合视觉 Transformer 用于细粒度视觉分类

本文提出了一个基于 Transformer 的框架，通过聚合特征来处理细粒度视觉分类任务，其中引入了一种新的令牌选择模块（MAWS）来引导网络有效地选择具有判别性的令牌，从而实现了最先进的性能。

Jul, 2021

TransFG: 用于细粒度识别的 Transformer 架构

本文介绍了一个基于 Vision Transformer 和 Part Selection Module 的模型 ——TransFG，可以有效提取重要的图像特征，应用于 Fine-grained visual classification，实现了最先进的表现。

Mar, 2021

探索 Vision Transformers 用于细粒度分类

研究提出了一种多阶段的 Vision Transformer 框架，用于细粒度图像分类，可在不需要架构变化的情况下定位信息图像区域。 Attention-guided 增强技术提高了模型性能，并在四个流行的细粒度基准测试中进行了实验，同时通过定性结果证明了模型的可解释性。

Jun, 2021

R2-Trans: 细粒度视觉分类中的冗余减少

本文提出了一种新颖的 Fine-grained visual categorization (FGVC) 方法，可以同时运用环境线索中局部但足够区分的信息和对目标类别下的冗余信息进行压缩，通过计算批次中高权重区域的比例和自适应阈值，实现了输入空间中背景信息的适度提取。此外，本文还使用信息瓶颈方法指导网络在特征空间中学习最小充分表示。实验结果表明，此方法在三个常用基准数据集上表现优于其他最先进的方法和基线模型。

Apr, 2022

使用半监督学习和视觉 Transformer 的细粒度分类迁移学习

本研究探讨了 Semi-ViT，一种使用半监督学习技术微调 ViT 模型的图像分类方法，该方法更适用于缺乏注释数据的情况，特别是在电子商务等领域。我们的研究发现，即使在有限的注释数据的情况下，Semi-ViT 的性能也优于传统卷积神经网络（CNN）和 ViT。这些发现表明，Semi-ViT 在需要精细分类视觉数据的应用领域具有重要的应用前景。

May, 2023

注意力导向 CAM：自注意力引导视觉变换器的视觉解释

我们提出了一种应用于 Vision Transformer 的注意力引导可视化方法，该方法能够为其决策提供高级语义解释，并以类标签为唯一的输入，具备出色的定位性能，在弱监督定位任务中胜过了之前领先的解释方法，并具备捕获目标类对象的完整实例的能力

Feb, 2024

深入探讨多模式提示在细粒度视觉分类中的应用

本文介绍了一种基于 CLIP 模型的多模态提示解决方案（MP-FGVC），通过跨模态描述充分利用 CLIP 模型在细粒度视觉分类（FGVC）任务中的能力，并且通过多模态的协同推理进一步提高 FGVC 的性能。

Sep, 2023

细粒度视觉分类的注意力卷积二元神经树

本文提出了一种基于关注的卷积二叉神经树框架，并使用路由功能、注意力变换器模块以及负对数似然损失函数等处理技术来解决细粒度视觉分类中遇到的问题，在多个标准数据集上的实验结果表明该方法性能优于先前提出的方法。

Sep, 2019

使用混合多模态视觉 Transformer-CNN 模型增强细粒度 3D 物体识别能力

提出了一种混合多模态视觉转换器和卷积神经网络方法以改善精细分类识别，通过生成两个合成数据集来解决 FGVC 3D 数据集不足的问题，并成功将其与机器人框架集成，展示其在模拟和实际机器人场景中作为细粒度感知工具的潜力。

Oct, 2022

DVF: 提升鲁棒性和准确性的细粒度图像检索与检索指南

本文提出了实用的细粒度图像检索模型设计指南，包括强调对象、凸显子类别特异性差异以及采用有效的训练策略。通过遵循指南并设计了一种新颖的双重视觉过滤机制（DVF），本文在三个广泛使用的细粒度数据集上实现了最先进的性能表现。

Apr, 2024