选择哪种Transformer：视觉Transformer效率的比较分析

Aug, 2023

选择哪种Transformer：视觉Transformer效率的比较分析

Which Transformer to Favor: A Comparative Analysis of Efficiency in Vision Transformers

Tobias Christian Nauen, Sebastian Palacio, Andreas Dengel

TL;DR对视觉Transformer及相关架构的效率进行了综合分析，揭示了一系列有趣的见解，例如发现ViT在多个效率度量标准上仍然是最佳选择，同时低推理内存和参数数量时，混合注意力-CNN模型表现良好，模型大小的缩放比图像大小更为重要，FLOPS与训练内存之间存在强正相关性。

Abstract

The growing popularity of vision transformers as the go-to models for image classification has led to an explosion of architectural modifications claiming to be more efficient than the original ViT. However, a wi

发现论文，激发创造

视觉中的Transformer：一项综述

本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾，包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点，并提出了未来的研究方向。

Jan, 2021

CvT：将卷积引入视觉Transformer

本文提出了名为CvT的新型架构，它通过将卷积引入ViT中实现了性能和效率的提升，并在ImageNet-1K上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

ConvNets与Transformers：哪个视觉表示更易转移？

通过15项单任务和多任务性能评估，系统地研究了ConvNets和vision transformers的迁移学习能力，发现vision transformers在13个下游任务中表现出一致优势，并且更适合于多任务学习。

Aug, 2021

AdaViT: 自适应视觉Transformer用于高效图像识别

本文提出了AdaViT，一个自适应的计算框架，旨在提高视觉变换器的推理效率，而只有0.8％的准确率下降，并在不同的计算预算条件下实现了良好的效率/准确性平衡。

Nov, 2021

视觉Transformer的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

EfficientFormer：在 MobileNet 速度下的视觉 Transformer

本文介绍了一种高效的纯Transformer设计方法EfficientFormer，用于实现与MobileNet相当的性能且具有极低的推理延迟，它通过解决ViT中的存储器冗余问题来达到这一目的。

Jun, 2022

高效ViT: 带级联分组注意力的内存高效视觉Transformer

本研究提出一种高速的视觉Transformer模型EfficientViT，通过优化Memory-Hard Self-Attention (MHSA) 和注意力的多样性等方法，提高其内存利用率，加快模型速度，并在速度和准确性之间取得良好的平衡。

May, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

视觉Transformer模型量化和硬件加速：综述

Vision Transformers（ViTs）的模型量化和硬件加速方面进行了综合调查，探讨了ViTs的独特架构特性、运行时特性、模型量化的基本原则，以及用于ViTs的最新量化技术的比较分析。此外，还探索了量化ViTs的硬件加速，强调了硬件友好算法设计的重要性，并讨论了未来的挑战和研究方向。

May, 2024

用于高效视觉识别的big.LITTLE视觉变换器

本文提出了一种新的架构——big.LITTLE视觉变换器，旨在解决高效视觉识别的问题。该研究通过动态推理机制，使关键token由高性能模块处理，而低价值token则由高效模块处理，从而显著降低计算负荷，同时保持模型的整体性能。实验结果表明，该架构在大规模视觉识别任务中实现了高准确性和显著的计算节省，展示了混合模型在优化计算与性能方面的潜力。

Oct, 2024