卷积神经网络和视觉变换器在时尚 MNIST 分类中的应用：文献综述

Jun, 2024

卷积神经网络和视觉变换器在时尚 MNIST 分类中的应用：文献综述

Convolutional Neural Networks and Vision Transformers for Fashion MNIST Classification: A Literature Review

Sonia Bbouzidi, Ghazala Hcini, Imen Jdey, Fadoua Drira

TL;DR对卷积神经网络（CNN）和视觉 Transformer（ViT）在图像分类领域的比较分析进行了研究，特别关注电子商务行业中的服装分类。通过使用时尚 MNIST 数据集，研究了 CNN 和 ViT 的独特属性。研究发现，CNN 长期以来一直是图像分类的基石，而 ViT 引入了一种创新的自注意机制，可以对不同输入数据组件进行细致的加权。既有文献的综合分析揭示了 ViT 和 CNN 在图像分类领域的区别，同时研究了使用这两种架构的最新方法，旨在确定 ViT 和 CNN 在电子商务行业中对时尚 MNIST 数据集进行图像分类的最合适架构。本研究强调了将这两种架构以不同形式结合以提高整体性能的重要性，因为 CNN 擅长识别局部模式，而 ViT 擅长抓住整体上下文，这使得它们的组合成为提高图像分类性能的一种有前途的策略。

Abstract

Our review explores the comparative analysis between Convolutional Neural Networks (CNNs) and vision transformers (ViTs) in the domain of image classification, with a particular focus on clothing classification w

convolutional neural networks vision transformers image classification clothing classification e-commerce sector

发现论文，激发创造

Vision Transformer 和卷积神经网络的视觉感知相似吗？

研究比较了卷积神经网络和 Vision Transformer 模型在图像分类任务中的内部表示结构，发现两种架构存在显著差异，其中 self-attention 在加快全局信息聚合方面发挥着关键作用。此外，预训练数据集规模会对中间特征和迁移学习产生影响。

Aug, 2021

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023

纹理分析中视觉 Transformer 特征提取的比较调查

该研究采用 21 个不同的预训练 Vision Transformer 架构，评估其在纹理识别中的性能，并与卷积神经网络和手工设计模型进行比较。结果显示，Vision Transformers 在纹理识别方面通常优于卷积神经网络和手工设计模型，尤其在使用更强的预训练和处理来自互联网的纹理任务时表现突出。其中，ViT-B with DINO pre-training，BeiTv2，Swin architecture 以及 EfficientFormer 被认为是更具潜力的模型。此外，尽管 GFLOPs 和参数数量较高，ViT-B 和 BeiT (v2) 在 GPU 上的特征提取时间比 ResNet50 更短，从而实现了更高的效率。

Jun, 2024

视觉 Transformer 的最新进展：近期研究的综述和展望

本文介绍了近期表现最佳的 Vision Transformers 方法，对其强弱项、计算成本、训练和测试数据集进行了全面综述，并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较，最后讨论了一些局限性和提出了未来研究方向。

Mar, 2022

预训练的 ViT 模型在医疗图像中得到了多用途的表示

本研究探讨了视觉 Transformer 在医学图像分类中的优劣，并发现使用预训练模型时，视觉 Transformer 可以与卷积神经网络媲美，成为 CNN 的一种可行替代方法。

Mar, 2023

探索混合 CNN 和视觉转换器的协同效应：计算机视觉的综述

综述探讨了卷积神经网络（CNN）与视觉 Transformer（ViT）架构的混合体，深入检查了最新的混合 CNN-ViT 架构文献，探索了这两种方法之间的协同作用。通过对混合 CV 架构的研究，旨在作为一个指导资源，促进对 CNN 和 ViT 之间错综复杂的动态关系及其对 CV 架构未来的共同影响的更深入的理解。

Feb, 2024

卷积神经网络或 Transformer 模型更像人类视觉？

比较了卷积神经网络和注意力网络的性能差异，使用新的指标展示了注意力网络的错误更贴近于人类，这些结果对于构建更人类化的视觉模型以及理解视觉对象识别在人类中的意义具有意义。

May, 2021

Vision Conformer：将卷积融入 Vision Transformer 层中

本研究通过将卷积神经网络与神经网络模型 Transformer 相结合，提出了一种名为 “Vision Conformer” 的模型，并通过实验证明了此模型对 ViT 图像识别能力的提升。

Apr, 2023

是否该用 Transformer 代替 CNN 处理医学图像？

本文探讨在医学图像诊断领域中，卷积神经网络和视觉 Transformer 哪一种更优秀，发现使用预训练的视觉 Transformer 模型（尤其是自监督预训练）可以优化诊断性能。

Aug, 2021

使用视觉 Transformer 进行语义分割：一项调查

调查了不同的 ViT 架构用于语义分割的性能和使用基准数据集对其进行比较。

May, 2023