CF-ViT: 一种通用的视觉 Transformer 粗细递进方法
研究提出了一种多阶段的 Vision Transformer 框架,用于细粒度图像分类,可在不需要架构变化的情况下定位信息图像区域。 Attention-guided 增强技术提高了模型性能,并在四个流行的细粒度基准测试中进行了实验,同时通过定性结果证明了模型的可解释性。
Jun, 2021
该研究提出了一种名为 LF-ViT 的定位和聚焦视觉变换器模型,通过在定位阶段处理降低分辨率图像并在发现困难预测时触发内置的全局类注意机制,确定和聚焦类别区域,然后在聚焦阶段使用原始图像中的该区域增强识别能力,该模型有效地缩小了计算要求并提高了性能。
Jan, 2024
本文提出了一种级联修剪框架,名为 CP-ViT,通过动态预测 Transformer 模型中信息含量低的部分,可以使基于 Vision transformer 的图像识别模型减少计算冗余,同时保证了很高的准确性,具有在对资源有限的移动设备上进行实际部署的多种适用性。
Mar, 2022
本文提出了一个基于 Transformer 的框架,通过聚合特征来处理细粒度视觉分类任务,其中引入了一种新的令牌选择模块(MAWS)来引导网络有效地选择具有判别性的令牌,从而实现了最先进的性能。
Jul, 2021
本文介绍了一个基于 Vision Transformer 和 Part Selection Module 的模型 ——TransFG,可以有效提取重要的图像特征,应用于 Fine-grained visual classification,实现了最先进的表现。
Mar, 2021
本文提出了一种名为 Dual-Branch Transformer 的模型,通过使用不同尺寸的图像块来获得更强的图像特征,进而学习多尺度特征表示,并采用交叉关注的方法进行多尺度特征的融合,使得计算复杂度得到控制,并在 ImageNet1K 数据集上实现了表现优于或与几个同时期的视觉转换器相当的结果。
Mar, 2021
本文提出了一个简单而有效的 Salient Mask-Guided Vision Transformer(SM-ViT)方法来在精细 - grained 视觉分类(FGVC)问题中捕捉潜在的可区分特征,进而提高视觉 Transformer 模型的分类性能。实验证明,SM-ViT 比现有的基于 ViT 的方法表现更优秀,需要更少的资源和较低的输入图像分辨率。
May, 2023
视网膜视觉转换器(RetinaViT)是从人类视觉系统中汲取灵感,将缩小版本的输入图像的补丁添加到第一个 Transformer 编码器层的输入中。实验结果表明,当在 ImageNet-1K 数据集上进行训练时,RetinaViT 相比原始的 ViT 模型获得了 3.3% 的性能提升,这可能归因于输入中低空间频率成分的包含,从而提高了捕捉结构特征的能力并将重要特征传递给更深的层次,为进一步研究垂直通路和注意模式打开了新的研究方向。
Mar, 2024
提出了一种用于减少 Vision Transformers 计算复杂度的简单方法,通过选择和处理最有信息的小片段,我们将二维人体姿态估计网络的结果作为指导进行小片段的选择,实验结果表明这种方法在显著提高速度和减少计算复杂度方面非常有效,而且性能略微下降。
Jun, 2023
本研究探讨了 Semi-ViT,一种使用半监督学习技术微调 ViT 模型的图像分类方法,该方法更适用于缺乏注释数据的情况,特别是在电子商务等领域。我们的研究发现,即使在有限的注释数据的情况下,Semi-ViT 的性能也优于传统卷积神经网络(CNN)和 ViT。这些发现表明,Semi-ViT 在需要精细分类视觉数据的应用领域具有重要的应用前景。
May, 2023