一张图像胜过16*16个单词:规模下的图像识别变形金刚
本文研究使用纯Transformer模型实现复杂视觉任务中的目标检测,发现Vision Transformer作为骨干网在检测任务上可以产生与传统卷积网络相媲美的结果,而且能够保持更高的图像分辨率。
Dec, 2020
本论文提出了一种结合卷积神经网络和Transformer的新型算法Convolution-enhanced image Transformer (CeiT),在ImageNet和七个下游任务中实现了与先前Transformer和目前最先进的卷积神经网络相当的效果,而无需大量训练数据和额外的卷积神经网络教师,同时具有更好的收敛性和更低的训练成本。
Mar, 2021
本文提出了名为CvT的新型架构,它通过将卷积引入ViT中实现了性能和效率的提升,并在ImageNet-1K上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本文研究了基于Transformer的图片分类模型的优化,通过两个Transformer模型的改进,使得模型深度增加能够带来更好的性能表现,并在Imagenet数据集上取得了86.5%的top-1准确率,创造了当前最高成绩。同时,我们还通过重新评估标签,打破了Imagenet-V2数据集的最高准确率记录,并开放了源代码和训练好的模型。
Mar, 2021
本文提出了一种名为Dynamic Transformer的方法,通过将多个变压器级联并在测试时以自适应方式逐个激活它们,自动配置每个输入图像的适当标记数。在ImageNet,CIFAR-10和CIFAR-100上的广泛实证结果表明,我们的方法在理论计算效率和实际推理速度方面显着优于竞争基线。
May, 2021
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
研究比较了卷积神经网络和Vision Transformer模型在图像分类任务中的内部表示结构,发现两种架构存在显著差异,其中self-attention在加快全局信息聚合方面发挥着关键作用。此外,预训练数据集规模会对中间特征和迁移学习产生影响。
Aug, 2021
本文提出了三种易于实现的视觉 Transformer 变体。第一,可以在不降低精度的情况下并行处理视觉 Transformer 的残差层。第二,对注意力层的权重进行微调就足以适应更高分辨率和其他分类任务,这节省了计算量,减少了微调时的峰值内存消耗,并允许跨任务共享大部分权重。第三,添加基于 MLP 的补丁预处理层,可提高基于补丁掩模的 Bert 式自监督训练效果。作者使用 ImageNet-1k 数据集评估了这些设计选择的影响,并在 ImageNet-v2 测试集上确认了研究发现。文章在六个较小的数据集上评估了转移性能。
Mar, 2022
本研究通过将卷积神经网络与神经网络模型Transformer相结合,提出了一种名为“Vision Conformer”的模型,并通过实验证明了此模型对ViT图像识别能力的提升。
Apr, 2023
Transformer设计是自然语言处理任务的事实标准,并且对计算机视觉领域的研究人员产生了兴趣。与卷积神经网络相比,基于Transformer的Vision Transformers(ViTs)在许多视觉问题中变得更加流行和占主导地位。
Oct, 2023