Jun, 2024

卷积神经网络和视觉变换器在时尚 MNIST 分类中的应用:文献综述

TL;DR对卷积神经网络(CNN)和视觉 Transformer(ViT)在图像分类领域的比较分析进行了研究,特别关注电子商务行业中的服装分类。通过使用时尚 MNIST 数据集,研究了 CNN 和 ViT 的独特属性。研究发现,CNN 长期以来一直是图像分类的基石,而 ViT 引入了一种创新的自注意机制,可以对不同输入数据组件进行细致的加权。既有文献的综合分析揭示了 ViT 和 CNN 在图像分类领域的区别,同时研究了使用这两种架构的最新方法,旨在确定 ViT 和 CNN 在电子商务行业中对时尚 MNIST 数据集进行图像分类的最合适架构。本研究强调了将这两种架构以不同形式结合以提高整体性能的重要性,因为 CNN 擅长识别局部模式,而 ViT 擅长抓住整体上下文,这使得它们的组合成为提高图像分类性能的一种有前途的策略。