本文研究使用基于 Transformer 的语言模型,比较了不同模型尺寸与训练数据规模对于预测功能性磁共振成像记录下的脑活动响应的影响。结果显示,当模型或数据规模增大时,在音频与语言预测方面均能获得显著性提升,这为在理解大脑语言处理机制和实际的解码应用上提供了改善的可能。
May, 2023
本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益,提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。
Sep, 2022
最近几年,深度学习领域的最新发展主要由大规模模型主导,这些模型在大量数据上进行了预训练。本文在视觉任务和 Vision Transformers 家族中,通过引导缩放规律,设计出了计算优化的自适应模型,并证明其胜过静态模型。
Nov, 2023
如果同时扩大数据规模、模型大小和图像分辨率,通过自监督学习可以实现人类级的视觉目标识别能力,而且使用基于掩码自编码器的高效自监督学习算法,可以在低成本的学术预算下进行扩展实验。
Aug, 2023
本文通过对自然语言处理任务的实证研究,发现神经比例定律不仅仅用于模型性能的预测,还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。
Feb, 2022
本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小,以及其误差率、数据和计算之间的关系进行表征,提高了模型的精度和训练效果,并最终成功训练出一个包含 20 亿参数的 ViT 模型,在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时,ViT 模型能够在 few-shot transfer 任务中有良好表现,例如在每个类别只有 10 个示例的情况下,能够达到 84.86% 的 top-1 精度。
Jun, 2021
该研究利用最新的比例定律推导了计算持续时间下最优计算模型的尺寸(参数数量),并进一步推进和改良了比例定律,以推断出计算优化的模型形状,成功地将其实现在视觉变换器中,并证明了我们的形状优化的视觉变换器(SoViT)在多个任务中都能取得出色的效果,挑战了当前盲目扩大视觉模型的做法并为更有信息的比例扩展铺平了道路。
本研究采用心理物理范式研究了多种机器视觉模型的机制可解释性,发现模型的解释性并未因数据集或模型规模的扩大而有所改善,且近代的视觉模型解释性甚至不如近十年前的 GoogLeNet 模型。
Jul, 2023
通过多尺度较小模型的预训练与冻结,我们展示了其在多个图像尺度上能够超越较大的视觉模型,并证明了通过 S$^2$ 方法进行预训练可以与较大模型具有相当的学习能力。
Mar, 2024
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度,其中 $c$ 取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024