CvT:将卷积引入视觉Transformer
本论文提出基于Transformer和ConvNet结构的ConTNet模型,相较于传统的ConvNet模型,可以更好地捕捉全局信息,从而部署在图像分类和物体检测等任务中,具有明显的优异性。
Apr, 2021
研究比较了卷积神经网络和Vision Transformer模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中self-attention在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
本研究重新审视设计空间,逐步将标准ResNet现代化为Vision Transformer的设计,发现了几个关键组件,并发现纯ConvetNets模型家族ConvNeXt可以在精度和可伸缩性方面与Transformer竞争,在ImageNet的top-1准确率方面达到了87.8%,并在COCO检测和ADE20K分割上优于Swin Transformer 。
Jan, 2022
本文介绍了近期表现最佳的 Vision Transformers 方法,对其强弱项、计算成本、训练和测试数据集进行了全面综述,并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较,最后讨论了一些局限性和提出了未来研究方向。
Mar, 2022
本研究提出了一种名为LightViT的轻量化transformer网络,通过全局有效聚合策略结合注意力机制和多维度的通道/空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
本文研究提出了一些专门为移动设备设计的ViT架构,分析了移动应用场景下ViT网络所面临的挑战,旨在为未来的研究方向提供基础,并选择最佳的ViT视觉架构以适用于移动设备。
May, 2023
对视觉Transformer及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现ViT在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力-CNN模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS与训练内存之间存在强正相关性。
Aug, 2023
Transformer设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于Transformer的Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
综述探讨了卷积神经网络(CNN)与视觉Transformer(ViT)架构的混合体,深入检查了最新的混合CNN-ViT架构文献,探索了这两种方法之间的协同作用。通过对混合CV架构的研究,旨在作为一个指导资源,促进对CNN和ViT之间错综复杂的动态关系及其对CV架构未来的共同影响的更深入的理解。
Feb, 2024