何时不需要更大的视觉模型?
该研究利用最新的比例定律推导了计算持续时间下最优计算模型的尺寸(参数数量),并进一步推进和改良了比例定律,以推断出计算优化的模型形状,成功地将其实现在视觉变换器中,并证明了我们的形状优化的视觉变换器(SoViT)在多个任务中都能取得出色的效果,挑战了当前盲目扩大视觉模型的做法并为更有信息的比例扩展铺平了道路。
May, 2023
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
本文旨在探索大规模计算机视觉模型,并提出了三项技术来解决训练过程中的不稳定性、预训练和微调之间的分辨率差异以及对标记数据的需求量问题,成功训练了一个规模为 30 亿参数的 Swin Transformer V2 模型,在多项计算机视觉任务上取得了最佳性能表现,且训练效率远高于谷歌的类似模型。
Nov, 2021
本文介绍了高效稳定地训练一个 22B 参数的 Vision Transformers(ViT-22B)的方法,并在结果模型上进行了大量实验。ViT-22B 展示了在视觉领域实现 LLM 般的扩展的潜力,并提供了部分实现的关键步骤。
Feb, 2023
如果同时扩大数据规模、模型大小和图像分辨率,通过自监督学习可以实现人类级的视觉目标识别能力,而且使用基于掩码自编码器的高效自监督学习算法,可以在低成本的学术预算下进行扩展实验。
Aug, 2023
本文提出一种新的学习范式,通过利用提前训练的大型模型来增强传统视觉模型的表示能力,并在多个视觉模型中验证了该算法的有效性,可以提高图像分类等任务的准确性。
Jun, 2023
本研究采用心理物理范式研究了多种机器视觉模型的机制可解释性,发现模型的解释性并未因数据集或模型规模的扩大而有所改善,且近代的视觉模型解释性甚至不如近十年前的 GoogLeNet 模型。
Jul, 2023
探索如何构建高性能视觉编码模型以预测脑活动,通过研究功能性磁共振成像(fMRI)数据中的视觉模型参数大小和样本量对预测准确性的影响,结果表明增加训练集样本量和视觉模型参数大小能够提高预测准确性,从而更好地理解视觉神经科学。
Aug, 2023