规模上，卷积神经网络与视觉变压器相等

Oct, 2023

规模上，卷积神经网络与视觉变压器相等

ConvNets Match Vision Transformers at Scale

Samuel L. Smith, Andrew Brock, Leonard Berrada, Soham De

TL;DR评估在 JFT-4B 预先训练的高效 ConvNet 架构，发现在合适的计算预算下，在 ImageNet 上微调后，NFNets 能够与 Vision Transformers 达到可比的性能。

Abstract

Many researchers believe that convnets perform well on small or moderately sized datasets, but are not competitive with vision transformers

convnets vision transformers datasets pre-training compute budget

发现论文，激发创造

ConvNets 与 Transformers：哪个视觉表示更易转移？

通过 15 项单任务和多任务性能评估，系统地研究了 ConvNets 和 vision transformers 的迁移学习能力，发现 vision transformers 在 13 个下游任务中表现出一致优势，并且更适合于多任务学习。

Aug, 2021

用仅 2040 张图片训练视觉 Transformer

本篇研究介绍如何以有限数据训练 Vision Transformers，并探讨使用基于参数实例鉴别方法的理论分析。结果表明，该方法优于其他方法，可捕捉特征对齐和实例相似性，并在多个 ViT 基础下从头开始训练 7 个小数据集，取得了最新的测试结果。此外，该研究还探讨了小型数据集的迁移能力，并发现从小型数据集中学习的表示甚至可以改善大规模 ImageNet 的训练结果。

Jan, 2022

小规模数据上轻量级视觉变形器的预训练与图像最小缩放

轻量级视觉 Transformer（ViT）可以通过预训练和最小的图像缩放，实现优于 ResNet 等卷积神经网络在小数据集和小图像分辨率上的性能，而不需要显著地增大图像。

Feb, 2024

2020 年代用于 ConvNet（卷积神经网络）的神经网络

本研究重新审视设计空间，逐步将标准 ResNet 现代化为 Vision Transformer 的设计，发现了几个关键组件，并发现纯 ConvetNets 模型家族 ConvNeXt 可以在精度和可伸缩性方面与 Transformer 竞争，在 ImageNet 的 top-1 准确率方面达到了 87.8％，并在 COCO 检测和 ADE20K 分割上优于 Swin Transformer 。

Jan, 2022

重新思考 Inception 架构在计算机视觉中的应用

本篇论文主要研究了如何利用适当分解卷积和激进的正则化等方法，使卷积神经网络计算效率最大化，并以 ILSVRC2012 分类挑战作为基准，报告了使用少于 2500 万参数的 5 亿乘加运算成本的网络，评估单帧评估的 top-1 误差 21.2％和 top-5 误差 5.6％的显著成果。

Dec, 2015

一张图像胜过 16*16 个单词：规模下的图像识别变形金刚

本文研究使用 Transformer 代替 CNN 进行图像分类，实现在计算资源少的情况下，取得比目前卷积网络更好的识别结果，从而在计算机视觉上取得突破。

Oct, 2020

CoAtNet：结合卷积和注意力处理不同数据尺寸

本篇研究介绍了 CoAtNets，这是一种基于 transformers 和卷积神经网络的混合模型，能够在图像识别领域取得最好的效果，相较于传统的 transformers 和卷积神经网络具备更好的泛化性能和效率。

Jun, 2021

将视觉 Transformer 解析为具有动态卷积的卷积神经网络

我们将视觉 Transformer 解释为具有动态卷积的 ConvNets，并在统一框架中比较它们的设计选择，证明了视觉 Transformer 可以以 ConvNets 的设计空间为参考，从而指导网络设计，并展示了如何通过更换激活函数和创建效率更高的深度视觉 Transformer 来提高性能和收敛速度。该统一解释不仅仅适用于给定的示例，希望能够激发社区并产生更先进的网络架构。

Sep, 2023

CvT：将卷积引入视觉 Transformer

本文提出了名为 CvT 的新型架构，它通过将卷积引入 ViT 中实现了性能和效率的提升，并在 ImageNet-1K 上表现出优异的性能，验证了此方法的先进性和有效性。

Mar, 2021

ImageNet-1k 更好的纯 ViT 基线

本文发现在 ImageNet-1k 规模的数据集上，Vision Transformer 模型不需要复杂的正则化技术，标准的数据增强足以提高模型表现。作者提出几种修改方式，能在较短时间内显著提高模型性能，实验表明在 TPUv3-8 上训练 90 个 epoch 的 ViT 模型在 7 小时内可以超过 76% top-1 精度，达到经典的 ResNet50 模型的性能表现。经过 300 个 epoch 的训练，模型可以在不到一天的时间内达到 80% 的 top-1 精度。

May, 2022