HIRI-ViT:高分辨率输入下的视觉Transformer尺度扩展
本文发现Vision transformers模型存在attention collapse issue现象,即transformer模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为Re-attention的有效方法来解决该问题,使得32层的Vision transformers模型在ImageNet数据集的Top-1分类准确率上提高了1.6%。
Mar, 2021
本文提出了一种新的Vision Transformer (ViT)结构Multi-Scale Vision Longformer,可以提高处理高分辨率图像的能力,主要通过多尺度模型结构和视觉Longformer的注意机制来实现,经过全面的实验表明在多项计算机视觉任务中,新的ViT模型比现有的ViT模型和基于ResNet的模型及其他竞争模型的性能都更好。
Mar, 2021
本文提出了名为CvT的新型架构,它通过将卷积引入ViT中实现了性能和效率的提升,并在ImageNet-1K上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
利用神经架构搜索(NAS)设计了一个有效的多阶段的 Vision Transformer 架构 ViT-ResNAS,其中融合了两个技术:残差空间缩减和权重共享 NAS,实验证明 ViT-ResNAS 在 ImageNet 数据集上能够取得比原始 DeiT 和其他强基线更好的精度-MAC 和精度-吞吐量权衡。
Sep, 2021
本文介绍了近期表现最佳的 Vision Transformers 方法,对其强弱项、计算成本、训练和测试数据集进行了全面综述,并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较,最后讨论了一些局限性和提出了未来研究方向。
Mar, 2022
综述探讨了卷积神经网络(CNN)与视觉Transformer(ViT)架构的混合体,深入检查了最新的混合CNN-ViT架构文献,探索了这两种方法之间的协同作用。通过对混合CV架构的研究,旨在作为一个指导资源,促进对CNN和ViT之间错综复杂的动态关系及其对CV架构未来的共同影响的更深入的理解。
Feb, 2024
通过从视觉感知中汲取灵感进行注意机制创新,Transformer已经成为最先进的视觉架构。本文引入了一种融合区域和稀疏注意力的Atrous Attention,它能够自适应地整合局部和全局信息,并保持层次关系,提出了一种通用的混合式视觉Transformer骨干网络ACC-ViT,适用于标准视觉任务和移动规模版本,适用于具有小数据集的特定应用领域。
Mar, 2024
Vision Transformers(ViTs)的模型量化和硬件加速方面进行了综合调查,探讨了ViTs的独特架构特性、运行时特性、模型量化的基本原则,以及用于ViTs的最新量化技术的比较分析。此外,还探索了量化ViTs的硬件加速,强调了硬件友好算法设计的重要性,并讨论了未来的挑战和研究方向。
May, 2024