TRT-ViT:针对 TensorRT 的 Vision Transformer
本文提出 Next-ViT 模型,使用 Next Convolution Block 和 Next Transformer Block 捕获局部和全局信息,以加速多种视觉任务的表现,同时保持与最先进的 CNN-Transformer 混合框架的可比性,可用于实际工业场景中的高效部署。
Jul, 2022
本文提出了名为 CvT 的新型架构,它通过将卷积引入 ViT 中实现了性能和效率的提升,并在 ImageNet-1K 上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本文提出了一种 MobileViT 轻量级通用视觉变换器,将 transformers 视为卷积,可用于移动设备,取得了比 CNN 和 ViT 更好的性能,特别是在对象检测任务上。
Oct, 2021
通过设计具有高频和低频特征的 FMViT 混合 Vision Transformer 模型,以及引入 gMLP、RLMHSA 和 CFB 机制来提高模型性能和减少计算开销,我们在各种视觉任务中成功提高了潜在的 TensorRT 和 CoreML 平台上的性能,相比现有的 CNNs,ViTs 和 CNNTransformer 混合架构,FMViT 在性能和计算开销方面取得了卓越的成果。
Nov, 2023
通过生成式架构搜索,通过掩蔽单元注意力和 Q 池设计模式创建高效分层视觉 Transformer 体系结构设计 TurboViT,相较于其他 10 种同等准确度的最新高效视觉 Transformer 网络架构设计,在 ImageNet-1K 数据集上实现了显著较小的计算复杂性和更高的计算效率。同时在实时和批处理场景下表现出强大的推理延迟和吞吐量。
Aug, 2023
本论文提出了一种统一的 ViT 压缩框架,其中使用了修剪、跳跃层和知识蒸馏等三种有效技术,经过在 ImageNet 数据集上的实验验证,我们的方法在保证精度的前提下有效压缩 Vision Transformers,比目前已有的压缩方法表现更优。
Mar, 2022
本论文提出了一种名为 T2T-ViT 的 Tokens 转到 Tokens 的视觉变压器,用于图像分类,通过对输入图像进行递归聚合邻近的 Tokens,结合本地结构进行建模,从而提高模型训练样本效率,并减少模型参数和计算量,最终在 ImageNet 数据集上取得了优秀的表现。
Jan, 2021
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
本研究提出了一种名为 LightViT 的轻量化 transformer 网络,通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息,从而实现更好的准确性和效率平衡。实验证明,该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。
Jul, 2022
对视觉 Transformer 及相关架构的效率进行了综合分析,揭示了一系列有趣的见解,例如发现 ViT 在多个效率度量标准上仍然是最佳选择,同时低推理内存和参数数量时,混合注意力 - CNN 模型表现良好,模型大小的缩放比图像大小更为重要,FLOPS 与训练内存之间存在强正相关性。
Aug, 2023