Visformer:基于 Transformer 的视觉友好型模型
对视觉 Transformer 及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现 ViT 在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力 - CNN 模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS 与训练内存之间存在强正相关性。
Aug, 2023
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
本文研究了视觉 Transformer 在半监督图像分类中的训练方法,通过引入一个联合半监督学习框架 Semiformer,实现了有标记数据与无标记数据的知识共享,从而取得了 ImageNet 数据集上 75.5% 的 top-1 准确率,成为同类方法中最具优势的方法之一。
Nov, 2021
本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型,提出了一个分类法来组织代表性的方法,评估和比较所有这些现有的视觉 Transformers 在不同的配置下,并揭示一系列的重要但未开发的方面,最后指出了三个有前途的研究方向。
Nov, 2021
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
本研究通过将卷积神经网络与神经网络模型 Transformer 相结合,提出了一种名为 “Vision Conformer” 的模型,并通过实验证明了此模型对 ViT 图像识别能力的提升。
Apr, 2023
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
提出了一种基于线性注意力机制的混合体系结构 ——Convolutional X-formers for Vision(CXV)。通过将 Quintic Transformer,Nyströmformer 和 Linear Transformer 等线性注意力机制代替二次注意力机制,来减少 GPU 使用。CXV 在有限的数据和 GPU 资源(核心,内存,功率)场景下,比其他的架构如 Token mixers(例如 ConvMixer,Fnet 和 MLP Mixer),变换模型(如 ViT,CCT,CvT 和混合 Xformers)以及 ResNets 等,更适用于图像分类任务。
Jan, 2022
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
该论文提出了一种新的分类方法,使用 Conviformer 和 PreSizer 处理高维度植物图像,实现细粒度植物图像分类,最终在 Herbarium 和 iNaturalist 数据集上取得了 SoTA 效果。
Aug, 2022