基于视觉转换器的艺术鉴定
通过 15 项单任务和多任务性能评估,系统地研究了 ConvNets 和 vision transformers 的迁移学习能力,发现 vision transformers 在 13 个下游任务中表现出一致优势,并且更适合于多任务学习。
Aug, 2021
本研究重新审视设计空间,逐步将标准 ResNet 现代化为 Vision Transformer 的设计,发现了几个关键组件,并发现纯 ConvetNets 模型家族 ConvNeXt 可以在精度和可伸缩性方面与 Transformer 竞争,在 ImageNet 的 top-1 准确率方面达到了 87.8%,并在 COCO 检测和 ADE20K 分割上优于 Swin Transformer 。
Jan, 2022
本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型,提出了一个分类法来组织代表性的方法,评估和比较所有这些现有的视觉 Transformers 在不同的配置下,并揭示一系列的重要但未开发的方面,最后指出了三个有前途的研究方向。
Nov, 2021
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
对卷积神经网络(CNN)和视觉 Transformer(ViT)在图像分类领域的比较分析进行了研究,特别关注电子商务行业中的服装分类。通过使用时尚 MNIST 数据集,研究了 CNN 和 ViT 的独特属性。研究发现,CNN 长期以来一直是图像分类的基石,而 ViT 引入了一种创新的自注意机制,可以对不同输入数据组件进行细致的加权。既有文献的综合分析揭示了 ViT 和 CNN 在图像分类领域的区别,同时研究了使用这两种架构的最新方法,旨在确定 ViT 和 CNN 在电子商务行业中对时尚 MNIST 数据集进行图像分类的最合适架构。本研究强调了将这两种架构以不同形式结合以提高整体性能的重要性,因为 CNN 擅长识别局部模式,而 ViT 擅长抓住整体上下文,这使得它们的组合成为提高图像分类性能的一种有前途的策略。
Jun, 2024
本文研究了 Vision Transformers 在对抗性样本方面的鲁棒性,分析了其与 CNNs 在攻击和安全方面的不同,并提出了一个简单的混合防御方案以提高鲁棒性和准确性。
Mar, 2021
该论文综述探讨了视觉 Transformer 模型在自动驾驶中的应用,重点研究了自我注意力、多头注意力和编码器 - 解码器架构等基本概念,并比较了它们在目标检测、分割、行人检测、车道检测等应用中的架构优点和局限性,最后展望了视觉 Transformer 在自动驾驶中的未来研究方向。
Mar, 2024
使用不同的卷积神经网络和 Transformer 方法以及广泛的数据增强技术,在三个医学图像数据集上比较了它们的表现,并将视觉 Transformer 模型与其他先进的预训练 CNN 网络进行了评估和比较,在分类不同的解剖结构、所见和异常方面,我们的 Transformer 模型优于或更有效,比 CNN 基于的方法有所改进,建议将其用作算法开发的新基准算法。
Apr, 2023
Transformer 设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于 Transformer 的 Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023