视觉编码模型与缩放定律的适用性

Aug, 2023

视觉编码模型与缩放定律的适用性

Applicability of scaling laws to vision encoding models

Takuya Matsuyama, Kota S Sasaki, Shinji Nishimoto

TL;DR探索如何构建高性能视觉编码模型以预测脑活动，通过研究功能性磁共振成像（fMRI）数据中的视觉模型参数大小和样本量对预测准确性的影响，结果表明增加训练集样本量和视觉模型参数大小能够提高预测准确性，从而更好地理解视觉神经科学。

Abstract

In this paper, we investigated how to build a high-performance vision encoding model to predict brain activity as part of our participation in the Algonauts Project 2023 Challenge. The challenge provided brain activity<

high-performance vision encoding model brain activity functional mri prediction accuracy visual models

发现论文，激发创造

fMRI 中语言编码模型的尺度定律

本文研究使用基于 Transformer 的语言模型，比较了不同模型尺寸与训练数据规模对于预测功能性磁共振成像记录下的脑活动响应的影响。结果显示，当模型或数据规模增大时，在音频与语言预测方面均能获得显著性提升，这为在理解大脑语言处理机制和实际的解码应用上提供了改善的可能。

May, 2023

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022

通过自适应策略加速 Vision Transformer 的训练：导航扩展法则

最近几年，深度学习领域的最新发展主要由大规模模型主导，这些模型在大量数据上进行了预训练。本文在视觉任务和 Vision Transformers 家族中，通过引导缩放规律，设计出了计算优化的自适应模型，并证明其胜过静态模型。

Nov, 2023

通过扩大规模，也许您可以实现与人类相同的视觉体验，达到人类水平的目标识别能力

如果同时扩大数据规模、模型大小和图像分辨率，通过自监督学习可以实现人类级的视觉目标识别能力，而且使用基于掩码自编码器的高效自监督学习算法，可以在低成本的学术预算下进行扩展实验。

Aug, 2023

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022

可扩展的视觉 Transformer

本研究通过对 Vision Transformer 模型以及数据集的扩充和缩小，以及其误差率、数据和计算之间的关系进行表征，提高了模型的精度和训练效果，并最终成功训练出一个包含 20 亿参数的 ViT 模型，在 ImageNet 数据集上取得了 90.45% 的 top-1 精度。同时，ViT 模型能够在 few-shot transfer 任务中有良好表现，例如在每个类别只有 10 个示例的情况下，能够达到 84.86% 的 top-1 精度。

Jun, 2021

ViT 训练规模的变化：计算优化模型设计的缩放定律

该研究利用最新的比例定律推导了计算持续时间下最优计算模型的尺寸（参数数量），并进一步推进和改良了比例定律，以推断出计算优化的模型形状，成功地将其实现在视觉变换器中，并证明了我们的形状优化的视觉变换器（SoViT）在多个任务中都能取得出色的效果，挑战了当前盲目扩大视觉模型的做法并为更有信息的比例扩展铺平了道路。

May, 2023

规模本身不足以提高视觉模型的机理可解释性

本研究采用心理物理范式研究了多种机器视觉模型的机制可解释性，发现模型的解释性并未因数据集或模型规模的扩大而有所改善，且近代的视觉模型解释性甚至不如近十年前的 GoogLeNet 模型。

Jul, 2023

何时不需要更大的视觉模型？

通过多尺度较小模型的预训练与冻结，我们展示了其在多个图像尺度上能够超越较大的视觉模型，并证明了通过 S$^2$ 方法进行预训练可以与较大模型具有相当的学习能力。

Mar, 2024

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024