ViTMatte：利用预训练普通视觉 Transformer 提升图像抠图

May, 2023

ViTMatte：利用预训练普通视觉 Transformer 提升图像抠图

ViTMatte: Boosting Image Matting with Pretrained Plain Vision Transformers

Jingfeng Yao, Xinggang Wang, Shusheng Yang, Baoyuan Wang

TL;DR该研究利用目前最先进的 ViT 深度学习模型，结合基于关注机制和卷积神经网络技术的细节捕获模块，成功地提出了用于图像抠图的 ViTMatte 系统。该系统在多项任务中创造了最佳性能，比过往方法具有更高的鲁棒性和更具吸引力的效率特征。

Abstract

Recently, plain vision transformers (ViTs) have shown impressive performance on various computer vision tasks, thanks to their strong modeling capacity and large-scale pretraining. However, they have not yet conquered the problem of →

vision transformers image matting attention mechanism convolution neck detail capture module

发现论文，激发创造

CNN 还是 ViT？透过卷积再探视觉 Transformer

本研究提出了一种新颖的高斯混合蒙版（GMM）方法，在没有预训练的情况下通过改进局部建模的方式来提升 Vision Transformer（ViT）在小数据集上的性能，实验证明该方法对于提升 ViT 的效果显著，几乎不增加额外参数或计算成本。

Sep, 2023

DeiT III：ViT 的复仇

本文改进了一种用于训练 Vision Transformer (ViT) 的全监督训练方法，通过仅使用三种数据增强方式，此方法优于之前的全监督训练方法，并且在图像分类、迁移学习和语义分割等任务中表现出色，同时也为 ViT 的自我监督方法提供了更好的基线。

Apr, 2022

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

LightViT: 轻量化无卷积视觉 Transformer

本研究提出了一种名为 LightViT 的轻量化 transformer 网络，通过全局有效聚合策略结合注意力机制和多维度的通道 / 空间注意力机制来捕捉全局依赖信息，从而实现更好的准确性和效率平衡。实验证明，该模型在图像分类、目标检测和语义分割任务中均取得了显著的提升。

Jul, 2022

纹理分析中视觉 Transformer 特征提取的比较调查

该研究采用 21 个不同的预训练 Vision Transformer 架构，评估其在纹理识别中的性能，并与卷积神经网络和手工设计模型进行比较。结果显示，Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型，尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中，ViT-B with DINO pre-training，BeiTv2，Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外，尽管 GFLOPs 和参数数量较高，ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短，从而实现了更高的效率。

Jun, 2024

视觉 Transformer 的引人注目的性质

本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度，并探讨基于形状编码的图像编码方法，以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。

May, 2021

PriViT：用于快速私密推理的视觉 Transformer

使用 PriViT 算法，通过温和改变 Vision Transformer 结构中的非线性变换，实现了在维持预测准确性的同时，适应安全多方计算（MPC）协议的隐私预测，相比于现有方案，PriViT 在延迟 - 准确性的 Pareto 最优曲线方面取得改进。

Oct, 2023

SegViT: 纯视觉 Transformer 的语义分割

本文讲述了使用 Vision Transformers 来进行语义分割的能力，提出了 SegVit 模型，并介绍了 Attention-to-Mask（ATM）模块和基于查询的下采样（QD）和上采样（QU）技术，用于构建 Shrunk 结构来减小计算量。实验证明，使用 ATM 模块的 SegVit 模型在 ADE20K 数据集上优于使用常规 ViT 骨干网络的 SegVit 模型，并在 COCO-Stuff-10K 和 PASCAL-Context 数据集上达到了新的排名最佳性能。

Oct, 2022

ExMobileViT：移动视觉 Transformer 的轻量分类器扩展

提出了一种有效的结构，通过小的计算开销增强了适用于移动设备的视觉 Transformer 的性能。该结构通过存储来自早期注意力阶段的信息并在最终分类器中重复利用该信息解决了现有方案的弱点。

Sep, 2023

快速视觉 Transformer 模型：具有分层注意力机制

本文介绍了一种新的卷积神经网络和可见 - 感知变换神经网络的混合模型 ——FasterViT，利用 HAT 方法分层降低全局自注意力的计算复杂度，提高图像处理的吞吐量和效率。FasterViT 在各种计算机视觉任务中得到了广泛的验证，并表现出比竞争对手更快，更准确的性能。

Jun, 2023