Vision Transformers 及其基于 CNN-Transformer 的变体调查
本文回顾了将 Transformer 应用于计算机视觉任务中的视觉 Transformer 模型,并分为不同任务类别,分析它们的优点和缺点,同时也介绍了将 Transformer 应用到实际设备应用的有效方法。最后,本文还探讨了计算机视觉中的自注意机制以及视觉 Transformer 面临的挑战及进一步研究方向。
Dec, 2020
研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
本文研究在 Vision Transformers 与卷积神经网络之间构建混合模型时的计算瓶颈问题,探索采用卷积层进行初始化以达到更快的训练速度,得到的 Transformed CNN (T-CNN) 相比 CNN 在 ImageNet-1k 上有 2.2% top-1 和 ImageNet-C 上有 11% top-1 的性能提升,研究发现初始化 T-CNN 可以从部分训练的 CNN 开始进行,可以更快地达到高性能。
Jun, 2021
本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型,提出了一个分类法来组织代表性的方法,评估和比较所有这些现有的视觉 Transformers 在不同的配置下,并揭示一系列的重要但未开发的方面,最后指出了三个有前途的研究方向。
Nov, 2021
本次研究对变压器模型在计算机视觉方面的应用进行了全面的回顾,包括自我关注、大规模预训练和双向编码等基础概念及其在图像分类、视频处理等多个领域的广泛应用。研究比较了不同技术在架构设计及实验价值方面的优缺点,并提出了未来的研究方向。
Jan, 2021
综述探讨了卷积神经网络(CNN)与视觉 Transformer(ViT)架构的混合体,深入检查了最新的混合 CNN-ViT 架构文献,探索了这两种方法之间的协同作用。通过对混合 CV 架构的研究,旨在作为一个指导资源,促进对 CNN 和 ViT 之间错综复杂的动态关系及其对 CV 架构未来的共同影响的更深入的理解。
Feb, 2024
本文通过仔细研究 Transformers 的设计,发现在提高稳健性方面,使用卷积神经网络(CNNs)设计的架构同样有效。具体来说,我们的发现分别是:a)分块输入图像,b)增大卷积核尺寸,以及 c)减少激活层和归一化层的设计。我们的实验结果表明这三种设计的结合可以构建出实现简单,无需 attention-like 操作的卷积神经网络架构,其稳健性与甚至优于 Transformers。
Jun, 2022
混合图像技术(hybrid images)与深度学习视觉模型在研究人类视觉系统的多尺度图像处理方面具有定性一致性且卷积神经网络(CNN)和 Transformer 在视觉皮层腹侧通路中的前向信息传递建模方面表现优异。
Mar, 2022
该论文综述探讨了视觉 Transformer 模型在自动驾驶中的应用,重点研究了自我注意力、多头注意力和编码器 - 解码器架构等基本概念,并比较了它们在目标检测、分割、行人检测、车道检测等应用中的架构优点和局限性,最后展望了视觉 Transformer 在自动驾驶中的未来研究方向。
Mar, 2024
本文提出了一种新的医学图像分割混合架构,手持卷积神经网络和 Transformer,用于动态变形卷积和自适应互补注意模块改进卷积神经网络和 Transformer 的性能,以实现更好的医学图像分割结果。
Jun, 2023