TRT-ViT：针对TensorRT的Vision Transformer

May, 2022

TRT-ViT：针对TensorRT的Vision Transformer

TRT-ViT: TensorRT-oriented Vision Transformer

Xin Xia, Jiashi Li, Jie Wu, Xing Wang, Mingkai Wang...

TL;DR本文主要从实际应用的角度重新审视Transformer，并将硬件延迟作为衡量计算效率的指标，提出一系列针对TensorRT的网络设计实践指南，并给出了一家TRT-ViT的网络模型，实验表明在不同的视觉任务中，TRT-ViT在延迟/准确性的权衡方面显著优于现有的ConvNets和Vision Transformers。

Abstract

We revisit the existing excellent transformers from the perspective of practical application. Most of them are not even as efficient as the basic ResNets series and deviate from the realistic deployment scenario. It may be due to the current criterion to measure computation

发现论文，激发创造

CvT：将卷积引入视觉Transformer

本文提出了名为CvT的新型架构，它通过将卷积引入ViT中实现了性能和效率的提升，并在ImageNet-1K上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

ConTNet：为什么不同时使用卷积和Transformer？

本论文提出基于Transformer和ConvNet结构的ConTNet模型，相较于传统的ConvNet模型，可以更好地捕捉全局信息，从而部署在图像分类和物体检测等任务中，具有明显的优异性。

Apr, 2021

AdaViT: 面向高效视觉Transformer的自适应Token

提出了一种自适应调整视觉转换器（ViT）推理成本的方法A-ViT，该方法基于自适应计算时间（ACT）重新表述，在不修改网络架构或推理硬件的情况下，通过自动减少处理网络的视觉转换器中的令牌数来实现此目标，并对图像分类任务性能得到了显著改进。

Dec, 2021

一个简单的单尺度视觉Transformer用于物体定位和实例分割

本文提出了一种简单的视觉Transformer设计，作为目标定位和实例分割任务的强大基线，绕过传统设计思路，通过UViT架构实现更好的计算成本和多尺度全局上下文聚合的平衡。

Dec, 2021

2020年代用于ConvNet（卷积神经网络）的神经网络

本研究重新审视设计空间，逐步将标准ResNet现代化为Vision Transformer的设计，发现了几个关键组件，并发现纯ConvetNets模型家族ConvNeXt可以在精度和可伸缩性方面与Transformer竞争，在ImageNet的top-1准确率方面达到了87.8％，并在COCO检测和ADE20K分割上优于Swin Transformer 。

Jan, 2022

无需训练的自适应视觉Transformer

提出了一种名为As-ViT的自动缩放框架，用于设计和扩展Vision Transformers(ViT)，并在分类和检测任务上获得了强大的性能，其模型设计和缩放过程仅需12小时的训练。

Feb, 2022

LightViT: 轻量化无卷积视觉Transformer

本研究提出了一种名为LightViT的轻量化transformer网络，通过全局有效聚合策略结合注意力机制和多维度的通道/空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

从标记稀疏化视角提高视觉Transformer的效率

本文介绍了一种基于语义标记的ViT模型，可以用于图像分类以及物体检测和实例分割等任务，并通过对空间中的池化图像标记进行attention的方法，来取代大量的图像标记，从而实现了网络的降维升效。

Mar, 2023

高效视觉变换器的调研：算法、技术和性能评测

这篇文章首先数学上定义了使Vision Transformer高效的策略，描述并讨论了最先进的方法学，并分析了它们在不同应用场景下的性能。

Sep, 2023

PPT：高效视觉Transformer的令牌修剪和池化

通过在视觉Transformer模型中集成令牌剪枝和令牌汇聚技术，我们提出了一种名为令牌剪枝和汇聚Transformer（PPT）的新型加速框架，通过启发式方法自适应地应对两种不同层次的冗余，有效降低模型复杂性同时保持其预测准确性。例如，PPT在ImageNet数据集上使DeiT-S的FLOPs降低了37%，吞吐量提高了45%以上，而没有准确性下降。

Oct, 2023