Vision Transformers 及其基于 CNN-Transformer 的变体调查

May, 2023

Vision Transformers 及其基于 CNN-Transformer 的变体调查

A survey of the Vision Transformers and its CNN-Transformer based Variants

Asifullah Khan, Zunaira Rauf, Anabia Sohail, Abdul Rehman, Hifsa Asif...

TL;DR本文对达到卓越视觉任务表现的一类混合视觉转换器体系结构进行了分类和阐述，其中融合了卷积和自注意力机制，重点讨论了注意力机制、位置嵌入、多尺度处理和卷积等关键特征。

Abstract

vision transformers have recently become popular as a possible alternative to convolutional neural networks (cnns) for a variety of computer vision applications. These →

vision transformers cnns hybridization taxonomy performance

发现论文，激发创造

关于视觉 Transformer 的调查

本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型，并分为不同任务类别，分析它们的优点和缺点，同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后，本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。

Dec, 2020

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

Transformed CNNs: 用自注意力机制重塑预训练卷积层

本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题，探索采用卷积层进行初始化以达到更快的训练速度，得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升，研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行，可以更快地达到高性能。

Jun, 2021

视觉 Transformer 综述

本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型，提出了一个分类法来组织代表性的方法，评估和比较所有这些现有的视觉 Transformers 在不同的配置下，并揭示一系列的重要但未开发的方面，最后指出了三个有前途的研究方向。

Nov, 2021

视觉中的 Transformer：一项综述

本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾，包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点，并提出了未来的研究方向。

Jan, 2021

探索混合 CNN 和视觉转换器的协同效应：计算机视觉的综述

综述探讨了卷积神经网络（CNN）与视觉 Transformer（ViT）架构的混合体，深入检查了最新的混合 CNN-ViT 架构文献，探索了这两种方法之间的协同作用。通过对混合 CV 架构的研究，旨在作为一个指导资源，促进对 CNN 和 ViT 之间错综复杂的动态关系及其对 CV 架构未来的共同影响的更深入的理解。

Feb, 2024

卷积神经网络是否可以比 Transformer 更强大？

本文通过仔细研究 Transformers 的设计，发现在提高稳健性方面，使用卷积神经网络（CNNs）设计的架构同样有效。具体来说，我们的发现分别是：a）分块输入图像，b）增大卷积核尺寸，以及 c）减少激活层和归一化层的设计。我们的实验结果表明这三种设计的结合可以构建出实现简单，无需 attention-like 操作的卷积神经网络架构，其稳健性与甚至优于 Transformers。

Jun, 2022

卷积神经网络和 Transformer 对混合图像的感知类似于人类

混合图像技术（hybrid images）与深度学习视觉模型在研究人类视觉系统的多尺度图像处理方面具有定性一致性且卷积神经网络（CNN）和 Transformer 在视觉皮层腹侧通路中的前向信息传递建模方面表现优异。

Mar, 2022

自动驾驶中视觉变形器研究综述：现状和未来发展方向

该论文综述探讨了视觉 Transformer 模型在自动驾驶中的应用，重点研究了自我注意力、多头注意力和编码器 - 解码器架构等基本概念，并比较了它们在目标检测、分割、行人检测、车道检测等应用中的架构优点和局限性，最后展望了视觉 Transformer 在自动驾驶中的未来研究方向。

Mar, 2024

CiT-Net: 卷积神经网络和视觉 Transformer 手牵手进行医学图像分割

本文提出了一种新的医学图像分割混合架构，手持卷积神经网络和 Transformer，用于动态变形卷积和自适应互补注意模块改进卷积神经网络和 Transformer 的性能，以实现更好的医学图像分割结果。

Jun, 2023