基于视觉转换器的艺术鉴定

Jul, 2023

Art Authentication with Vision Transformers

Ludovica Schaerf, Carina Popovici, Eric Postma

TL;DR这篇论文探讨了使用 Transformer 模型在艺术认证方面的应用，通过与 EfficientNet 模型的比较，发现 Vision Transformers 在艺术模拟品检测方面表现优秀，可提高计算机辅助艺术认证的可靠性。

Abstract

In recent years, transformers, initially developed for language, have been successfully applied to visual tasks. Vision transformers have been shown to push the state-of-the-art in a wide range of tasks, includin

transformers vision transformers art attribution art authentication computer-based authentication

发现论文，激发创造

ConvNets 与 Transformers：哪个视觉表示更易转移？

通过 15 项单任务和多任务性能评估，系统地研究了 ConvNets 和 vision transformers 的迁移学习能力，发现 vision transformers 在 13 个下游任务中表现出一致优势，并且更适合于多任务学习。

Aug, 2021

2020 年代用于 ConvNet（卷积神经网络）的神经网络

本研究重新审视设计空间，逐步将标准 ResNet 现代化为 Vision Transformer 的设计，发现了几个关键组件，并发现纯 ConvetNets 模型家族 ConvNeXt 可以在精度和可伸缩性方面与 Transformer 竞争，在 ImageNet 的 top-1 准确率方面达到了 87.8％，并在 COCO 检测和 ADE20K 分割上优于 Swin Transformer 。

Jan, 2022

视觉 Transformer 综述

本文综述了超过一百种不同的视觉 Transformer 根据三个基本的计算机视觉任务和不同的数据流类型，提出了一个分类法来组织代表性的方法，评估和比较所有这些现有的视觉 Transformers 在不同的配置下，并揭示一系列的重要但未开发的方面，最后指出了三个有前途的研究方向。

Nov, 2021

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

卷积神经网络和视觉变换器在时尚 MNIST 分类中的应用：文献综述

对卷积神经网络（CNN）和视觉 Transformer（ViT）在图像分类领域的比较分析进行了研究，特别关注电子商务行业中的服装分类。通过使用时尚 MNIST 数据集，研究了 CNN 和 ViT 的独特属性。研究发现，CNN 长期以来一直是图像分类的基石，而 ViT 引入了一种创新的自注意机制，可以对不同输入数据组件进行细致的加权。既有文献的综合分析揭示了 ViT 和 CNN 在图像分类领域的区别，同时研究了使用这两种架构的最新方法，旨在确定 ViT 和 CNN 在电子商务行业中对时尚 MNIST 数据集进行图像分类的最合适架构。本研究强调了将这两种架构以不同形式结合以提高整体性能的重要性，因为 CNN 擅长识别局部模式，而 ViT 擅长抓住整体上下文，这使得它们的组合成为提高图像分类性能的一种有前途的策略。

Jun, 2024

图像分类任务中视觉 Transformer 的全面研究

综述了关于视觉变换器用于图像分类的现有研究，包括图像分类数据集，视觉变换器模型的发展历程和未来研究机会。

Dec, 2023

Vision Transformers 对抗样本的鲁棒性

本文研究了 Vision Transformers 在对抗性样本方面的鲁棒性，分析了其与 CNNs 在攻击和安全方面的不同，并提出了一个简单的混合防御方案以提高鲁棒性和准确性。

Mar, 2021

自动驾驶中视觉变形器研究综述：现状和未来发展方向

该论文综述探讨了视觉 Transformer 模型在自动驾驶中的应用，重点研究了自我注意力、多头注意力和编码器 - 解码器架构等基本概念，并比较了它们在目标检测、分割、行人检测、车道检测等应用中的架构优点和局限性，最后展望了视觉 Transformer 在自动驾驶中的未来研究方向。

Mar, 2024

用于胸部 X 射线和胃肠道图像分类的视觉 Transformer

使用不同的卷积神经网络和 Transformer 方法以及广泛的数据增强技术，在三个医学图像数据集上比较了它们的表现，并将视觉 Transformer 模型与其他先进的预训练 CNN 网络进行了评估和比较，在分类不同的解剖结构、所见和异常方面，我们的 Transformer 模型优于或更有效，比 CNN 基于的方法有所改进，建议将其用作算法开发的新基准算法。

Apr, 2023

ViTs 随处可见：综合研究展示不同领域中的视觉 Transformer

Transformer 设计是自然语言处理任务的事实标准，并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比，基于 Transformer 的 Vision Transformers（ViTs）在许多视觉问题中变得更加流行和占主导地位。

Oct, 2023