视觉 Transformer 的最新进展:近期研究的综述和展望
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023
本文旨在分析分析 ViT 模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用 ViT 以无需像素级监督的方式实现准确的语义分割。
May, 2021
医学图像分割是各种医疗应用中至关重要的一环,能够实现准确的诊断、治疗规划和疾病监测。最近,视觉变换器(ViTs)作为一种有望解决医学图像分割挑战的技术逐渐崭露头角。本综述论文对于医学图像分割中 ViTs 和混合视觉变换器(HVTs)的最新发展进行了详细的回顾。除了对 ViT 和 HVT 的分类外,还详细介绍了它们在几种医学图像模态中的实时应用。这篇综述可以作为研究人员、医疗从业者和学生了解 ViT 基于医学图像分割的最新方法的有价值的资源。
Dec, 2023
对卷积神经网络(CNN)和视觉 Transformer(ViT)在图像分类领域的比较分析进行了研究,特别关注电子商务行业中的服装分类。通过使用时尚 MNIST 数据集,研究了 CNN 和 ViT 的独特属性。研究发现,CNN 长期以来一直是图像分类的基石,而 ViT 引入了一种创新的自注意机制,可以对不同输入数据组件进行细致的加权。既有文献的综合分析揭示了 ViT 和 CNN 在图像分类领域的区别,同时研究了使用这两种架构的最新方法,旨在确定 ViT 和 CNN 在电子商务行业中对时尚 MNIST 数据集进行图像分类的最合适架构。本研究强调了将这两种架构以不同形式结合以提高整体性能的重要性,因为 CNN 擅长识别局部模式,而 ViT 擅长抓住整体上下文,这使得它们的组合成为提高图像分类性能的一种有前途的策略。
Jun, 2024
研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
该研究采用 21 个不同的预训练 Vision Transformer 架构,评估其在纹理识别中的性能,并与卷积神经网络和手工设计模型进行比较。结果显示,Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型,尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中,ViT-B with DINO pre-training,BeiTv2,Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外,尽管 GFLOPs 和参数数量较高,ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短,从而实现了更高的效率。
Jun, 2024
本文发现 Vision transformers 模型存在 attention collapse issue 现象,即 transformer 模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为 Re-attention 的有效方法来解决该问题,使得 32 层的 Vision transformers 模型在 ImageNet 数据集的 Top-1 分类准确率上提高了 1.6%。
Mar, 2021
本研究探讨了视觉 Transformer 在医学图像分类中的优劣,并发现使用预训练模型时,视觉 Transformer 可以与卷积神经网络媲美,成为 CNN 的一种可行替代方法。
Mar, 2023
这篇文章首先数学上定义了使 Vision Transformer 高效的策略,描述并讨论了最先进的方法学,并分析了它们在不同应用场景下的性能。
Sep, 2023
通过重新设计注意力机制,本研究对视觉变换网络(ViT)中的注意力机制进行了全面探索,以提高其性能。包括理论基础、基本概念、关注机制的系统分类以及性能评估等方面的综述。
Mar, 2024