何时不需要更大的视觉模型？

Mar, 2024

When Do We Not Need Larger Vision Models?

Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell

TL;DR通过多尺度较小模型的预训练与冻结，我们展示了其在多个图像尺度上能够超越较大的视觉模型，并证明了通过 S$^2$ 方法进行预训练可以与较大模型具有相当的学习能力。

Abstract

scaling up the size of vision models has been the de facto standard to obtain more powerful visual representations. In this work, we discuss the point beyond which larger →

vision models scaling s$^2$multi-scale smaller models learning capacity

发现论文，激发创造

ViT 训练规模的变化：计算优化模型设计的缩放定律

该研究利用最新的比例定律推导了计算持续时间下最优计算模型的尺寸（参数数量），并进一步推进和改良了比例定律，以推断出计算优化的模型形状，成功地将其实现在视觉变换器中，并证明了我们的形状优化的视觉变换器（SoViT）在多个任务中都能取得出色的效果，挑战了当前盲目扩大视觉模型的做法并为更有信息的比例扩展铺平了道路。

May, 2023

可扩展的视觉 Transformer

本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小，以及其误差率、数据和计算之间的关系进行表征，提高了模型的精度和训练效果，并最终成功训练出一个包含 20 亿参数的 ViT 模型，在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时，ViT 模型能够在 few-shot transfer 任务中有良好表现，例如在每个类别只有 10 个示例的情况下，能够达到 84.86% 的 top-1 精度。

Jun, 2021

Swin Transformer V2：扩大容量和分辨率

本文旨在探索大规模计算机视觉模型，并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题，成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型，在多项计算机视觉任务上取得了最佳性能表现，且训练效率远高于谷歌的类似模型。

Nov, 2021

将视觉 Transformer 扩展至 220 亿参数

本文介绍了高效稳定地训练一个 22B 参数的 Vision Transformers（ViT-22B）的方法，并在结果模型上进行了大量实验。ViT-22B 展示了在视觉领域实现 LLM 般的扩展的潜力，并提供了部分实现的关键步骤。

Feb, 2023

通过扩大规模，也许您可以实现与人类相同的视觉体验，达到人类水平的目标识别能力

如果同时扩大数据规模、模型大小和图像分辨率，通过自监督学习可以实现人类级的视觉目标识别能力，而且使用基于掩码自编码器的高效自监督学习算法，可以在低成本的学术预算下进行扩展实验。

Aug, 2023

大规模预训练模型是否可帮助视觉模型完成感知任务？

本文提出一种新的学习范式，通过利用提前训练的大型模型来增强传统视觉模型的表示能力，并在多个视觉模型中验证了该算法的有效性，可以提高图像分类等任务的准确性。

Jun, 2023

加速图像分类器的小伙伴

使用轻量级的模型进行预测，然后仅通过困难样本对大模型进行求解的 Little-Big 算法能够显著减少计算量，实现对大型神经网络模型的压缩。

Jun, 2024

规模本身不足以提高视觉模型的机理可解释性

本研究采用心理物理范式研究了多种机器视觉模型的机制可解释性，发现模型的解释性并未因数据集或模型规模的扩大而有所改善，且近代的视觉模型解释性甚至不如近十年前的 GoogLeNet 模型。

Jul, 2023

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022

视觉编码模型与缩放定律的适用性

探索如何构建高性能视觉编码模型以预测脑活动，通过研究功能性磁共振成像（fMRI）数据中的视觉模型参数大小和样本量对预测准确性的影响，结果表明增加训练集样本量和视觉模型参数大小能够提高预测准确性，从而更好地理解视觉神经科学。

Aug, 2023