本文研究使用Transformer代替CNN进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
本文发现Vision transformers模型存在attention collapse issue现象,即transformer模型越深层次的注意力权重变得越相似,严重影响模型性能,提出了一种名为Re-attention的有效方法来解决该问题,使得32层的Vision transformers模型在ImageNet数据集的Top-1分类准确率上提高了1.6%。
Mar, 2021
本文提出了名为CvT的新型架构,它通过将卷积引入ViT中实现了性能和效率的提升,并在ImageNet-1K上表现出优异的性能,验证了此方法的先进性和有效性。
比较了卷积神经网络和注意力网络的性能差异,使用新的指标展示了注意力网络的错误更贴近于人类,这些结果对于构建更人类化的视觉模型以及理解视觉对象识别在人类中的意义具有意义。
May, 2021
本文旨在分析分析ViT模型中自注意力机制对于图像处理中的处理噪声和疑问具有的灵活度,并探讨基于形状编码的图像编码方法,以及使用ViT以无需像素级监督的方式实现准确的语义分割。
通过15项单任务和多任务性能评估,系统地研究了ConvNets和vision transformers的迁移学习能力,发现vision transformers在13个下游任务中表现出一致优势,并且更适合于多任务学习。
Aug, 2021
本文介绍视觉Transformer(ViT)在使用自注意力机制的基础上,探究其能否表达卷积操作,并证明使用输入图像块的单个ViT层可以构建任何卷积操作,其中多头注意机制和相对位置编码起着关键作用。作者还提供了Vision Transformer表达CNN所需头数的下限,该证明的构建可以帮助将卷积偏差注入Transformer,并在低数据环境下显著提高ViT的性能。
Nov, 2021
本文介绍了近期表现最佳的 Vision Transformers 方法,对其强弱项、计算成本、训练和测试数据集进行了全面综述,并在流行基准数据集上与各种 ViT 算法以及代表性 CNN 方法的性能进行了充分比较,最后讨论了一些局限性和提出了未来研究方向。
Mar, 2022
本研究通过将卷积神经网络与神经网络模型Transformer相结合,提出了一种名为“Vision Conformer”的模型,并通过实验证明了此模型对ViT图像识别能力的提升。
Apr, 2023
Transformer设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于Transformer的Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023