从路径集合的角度重新审视视觉 Transformer

ICCVAug, 2023

从路径集合的角度重新审视视觉 Transformer

Revisiting Vision Transformer from the View of Path Ensemble

Shuning Chang, Pichao Wang, Hao Luo, Fan Wang, Mike Zheng Shou

TL;DRVision Transformers（ViTs）可以被看做包含多条不同长度的平行路径的集合网络，通过路径修剪和自我蒸馏技术来优化路径组合，提供高质量的特征表示，并且充当高通滤波器以过滤部分低频信号。

Abstract

vision transformers (ViTs) are normally regarded as a stack of transformer layers. In this work, we propose a novel view of ViTs showing that they can be seen as ensemble networks containing multiple

vision transformers ensemble networks parallel paths path pruning self-distillation

发现论文，激发创造

MPViT: 多路径视觉 Transformer 用于密集预测

本文提出了一种新型的多路径视觉 Transformer（MPViT），通过使用重叠卷积视觉 patch 嵌入同时为不同尺度的 feature 生成令牌，将令牌按比例分为多个分支，并对分支进行处理，从而获得丰富的、多尺度的特征表示，在各项指标上均优于当前其他前沿网络，具有广泛的应用前景。

Dec, 2021

提升视觉 Transformer 的对抗传递性

本研究通过提出两种攻击策略，Self-Ensemble 和 Token Refinement，充分利用了 Vision Transformers 的自注意力和组合性质来增强对抗攻击的传递性能。

Jun, 2021

ViR: 视觉记忆网络

基于自注意力机制的视觉转换器（ViTs）因其对长距离空间依赖关系和大规模训练的出色能力而受到了广泛的关注，然而，其二次复杂度限制了其在许多需要快速推理的场景中的应用。受到自然语言处理中并行化模型的启发，我们提出了一种新的计算机视觉模型，命名为视觉保留网络（ViR），具有双并行和循环结构，以在快速推理和并行训练之间达到最佳平衡，并在需要更高分辨率图像的任务中具有可扩展性。ViR 是第一个尝试在通用视觉骨干网络中实现双并行和循环等效性的方法，我们通过大量实验证实了 ViR 的有效性，并提供了代码和预训练模型的公开获取。

Oct, 2023

统一视觉 Transformer 压缩

本论文提出了一种统一的 ViT 压缩框架，其中使用了修剪、跳跃层和知识蒸馏等三种有效技术，经过在 ImageNet 数据集上的实验验证，我们的方法在保证精度的前提下有效压缩 Vision Transformers，比目前已有的压缩方法表现更优。

Mar, 2022

多属性视觉转换器的高效稳健学习

通过研究广泛任务中视觉变换器（ViTs）与卷积神经网络（CNNs）的对比，探讨了 ViTs 的多属性学习能力，并提出了通过单个 ViT 网络训练多个属性的简单而有效的策略。通过对 CelebA 数据集的实证研究，验证了多属性 ViTs 在对抗攻击和 Patch-Fool 等最新变换器攻击下的鲁棒性。

Feb, 2024

Vision Conformer：将卷积融入 Vision Transformer 层中

本研究通过将卷积神经网络与神经网络模型 Transformer 相结合，提出了一种名为 “Vision Conformer” 的模型，并通过实验证明了此模型对 ViT 图像识别能力的提升。

Apr, 2023

基于异质注意力模式的视觉 Transformer 加速

基于观察到的异构注意力模式，在 Vision Transformers 中提出了一种综合压缩方法，通过动态引导的静态自注意力和全局聚合金字塔，加速了运行时间吞吐量，超过了所有 SOTA 方法。

Oct, 2023

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

视觉 Transformer 如何工作？

本文揭示了多头自注意力机制（MSAs）成功的原因及其背后的模型特性，提出了替代 CNN 模型的 AlterNet 模型，并证明了其在小规模及大规模数据集上的优越性。

Feb, 2022

通过 Token 重组加速视觉 Transformer：并非所有的修补程序都是您所需的

本论文提出了一种在 Vision Transformer 模型的前向推理过程中重新组织图像 tokens 的方法，以提高模型的计算效率和识别准确率。结果表明，该方法能够在保持相同的计算成本的前提下，提高模型的输入规模并提高模型的识别准确率。

Feb, 2022