缩放定律与模型架构：归纳偏置如何影响缩放？

Jul, 2022

缩放定律与模型架构：归纳偏置如何影响缩放？

Scaling Laws vs Model Architectures: How does Inductive Bias Influence Scaling?

Yi Tay, Mostafa Dehghani, Samira Abnar, Hyung Won Chung, William Fedus...

TL;DR本文通过系统研究了 Transformer、Switch Transformers、Universal Transformers、Dynamic convolutions、Performers 和 MLP-Mixers 等十个不同的模型架构的可扩展性行为，发现架构是进行扩展化的重要考虑因素之一，最佳表现的模型在不同尺度下可能会波动，并对如何评估模型架构在社区中的重要性具有重要影响。

Abstract

There have been a lot of interest in the scaling properties of Transformer models. However, not much has been done on the front of investigating the effect of scaling properties of different inductive biases and model architectures. Do model architectures scale differently? If so, how

transformers scaling behaviour model architectures inductive bias pretraining and transfer

发现论文，激发创造

扩展 MLPs: 归纳偏差的故事

本研究重新探讨了深度学习最基本的构架之一 —— 多层感知机（MLP）在视觉任务中的性能极限，重点研究了不同规模下的预训练对于 MLP 性能的影响，揭示了缺乏归纳偏差时尺度扩展对于性能表现的提升。

Jun, 2023

高效扩展：基于预训练和微调的 Transformer 技术洞见

本文提出了来自于预训练和微调 Transformer 的缩放见解，并展示了改进的缩放协议，使得重新设计的模型在 downstream fine-tuning 方面具有相似的质量，同时参数数量减少了 50％，训练速度比广泛采用的 T5-base 模型快了 40％。

Sep, 2021

神经机器翻译中的数据缩放定律：噪声和架构的影响

本文研究了神经机器翻译中体系结构和训练数据质量的变化对数据缩放性质的影响，并发现使用返向翻译数据会显著降低缩放系数。

Feb, 2022

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022

迈向归纳偏差的精确计算

我们提出了一种计算归纳偏差的新方法，该方法涉及对来自假设空间的随机假设的损失分布进行建模，以估计相对于这些假设需要的归纳偏差，从而提供了一种信息理论解释特定模型架构对特定任务的好处的度量，并为开发需要更大归纳偏差的任务提供了定量指导，从而鼓励更强大的归纳偏差的发展。

Jun, 2024

探索变形金刚的归纳偏差：从无限的视角

在无限过参数化的高斯过程极限中，我们研究了 Transformer 中的归纳偏置，并认为 Transformer 更倾向于对序列空间中的更多置换对称函数有偏见。通过展示对称群的表示理论的运用，我们可以在数据集对令牌之间的置换对称时给出定量分析预测。我们介绍了一个简化的 Transformer 模块，并解决了模型的极限，包括对学习曲线和网络输出的准确预测。我们证明在常见的设置中，可以导出关于上下文长度可学习性的一个紧密的边界的缩放定律。最后，我们认为 WikiText 数据集确实具有一定的置换对称度。

Feb, 2024

知识蒸馏传递诱导偏置

该研究探讨了在模型之间利用知识蒸馏的方法将归纳偏差迁移的可行性和效果，以不同归纳偏差的模型（LSTMs vs. Transformers 和 CNNs vs. MLPs）为例，研究了归纳偏差对模型收敛结果的影响以及知识蒸馏的迁移效果。

May, 2020

反比缩放：大不一定好

通过运行一个公共比赛，我们在 11 个数据集上提供了逆比例缩放的实证证据，并确定了导致逆比例缩放的四个潜在原因。尽管大型语言模型在整体损失方面具有可预测的规律，但我们的结果表明，模型规模增加本身对某些任务可能不会产生进展，因此对于训练语言模型的数据和目标需要更加谨慎的思考。

Jun, 2023

只预训结构：利用迁移学习理解语言归纳偏差

本研究通过对语言模型进行先验的结构性偏置，探索了不同感性学习偏差的影响，并研究了三种感性偏差的相对成功：1）递归，分层处理的感性偏差；2）无法通过上下文自由文法建模的无限制令牌 - 令牌依赖的感性偏差；和 3）一个 Zipfian 幂律词汇分布的感性偏差。我们发现，复杂的令牌 - 令牌交互形成了最好的感性偏向，并且在非上下文自由情况下最强。同时，我们还表明，独立于语法结构，Zipfian 词汇分布形成一个良好的感性偏向。

Apr, 2023

使用人工语言检验神经语言模型的归纳偏差

该研究提出了一种新颖的方法，使用人造语言验证语言模型的归纳偏见，并发现常用的神经架构在处理语句单词排序方面存在不同的归纳偏差。

Jun, 2021