规模上,卷积神经网络与视觉变压器相等
通过 15 项单任务和多任务性能评估,系统地研究了 ConvNets 和 vision transformers 的迁移学习能力,发现 vision transformers 在 13 个下游任务中表现出一致优势,并且更适合于多任务学习。
Aug, 2021
本篇研究介绍如何以有限数据训练 Vision Transformers,并探讨使用基于参数实例鉴别方法的理论分析。结果表明,该方法优于其他方法,可捕捉特征对齐和实例相似性,并在多个 ViT 基础下从头开始训练 7 个小数据集,取得了最新的测试结果。此外,该研究还探讨了小型数据集的迁移能力,并发现从小型数据集中学习的表示甚至可以改善大规模 ImageNet 的训练结果。
Jan, 2022
轻量级视觉 Transformer(ViT)可以通过预训练和最小的图像缩放,实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能,而不需要显著地增大图像。
Feb, 2024
本研究重新审视设计空间,逐步将标准 ResNet 现代化为 Vision Transformer 的设计,发现了几个关键组件,并发现纯 ConvetNets 模型家族 ConvNeXt 可以在精度和可伸缩性方面与 Transformer 竞争,在 ImageNet 的 top-1 准确率方面达到了 87.8%,并在 COCO 检测和 ADE20K 分割上优于 Swin Transformer 。
Jan, 2022
本篇论文主要研究了如何利用适当分解卷积和激进的正则化等方法,使卷积神经网络计算效率最大化,并以 ILSVRC2012 分类挑战作为基准,报告了使用少于 2500 万参数的 5 亿乘加运算成本的网络,评估单帧评估的 top-1 误差 21.2%和 top-5 误差 5.6%的显著成果。
Dec, 2015
本文研究使用 Transformer 代替 CNN 进行图像分类,实现在计算资源少的情况下,取得比目前卷积网络更好的识别结果,从而在计算机视觉上取得突破。
Oct, 2020
本篇研究介绍了 CoAtNets,这是一种基于 transformers 和卷积神经网络的混合模型,能够在图像识别领域取得最好的效果,相较于传统的 transformers 和卷积神经网络具备更好的泛化性能和效率。
Jun, 2021
我们将视觉 Transformer 解释为具有动态卷积的 ConvNets,并在统一框架中比较它们的设计选择,证明了视觉 Transformer 可以以 ConvNets 的设计空间为参考,从而指导网络设计,并展示了如何通过更换激活函数和创建效率更高的深度视觉 Transformer 来提高性能和收敛速度。该统一解释不仅仅适用于给定的示例,希望能够激发社区并产生更先进的网络架构。
Sep, 2023
本文提出了名为 CvT 的新型架构,它通过将卷积引入 ViT 中实现了性能和效率的提升,并在 ImageNet-1K 上表现出优异的性能,验证了此方法的先进性和有效性。
Mar, 2021
本文发现在 ImageNet-1k 规模的数据集上,Vision Transformer 模型不需要复杂的正则化技术,标准的数据增强足以提高模型表现。作者提出几种修改方式,能在较短时间内显著提高模型性能,实验表明在 TPUv3-8 上训练 90 个 epoch 的 ViT 模型在 7 小时内可以超过 76% top-1 精度,达到经典的 ResNet50 模型的性能表现。经过 300 个 epoch 的训练,模型可以在不到一天的时间内达到 80% 的 top-1 精度。
May, 2022