更多计算是您所需之物

Apr, 2024

More Compute Is What You Need

Zhen Guo

TL;DR基于新的缩放定律，我们推测模型性能主要取决于计算经费的使用，而与模型大小和数据集大小的具体分配无关。根据统一的缩放定律，我们预测（a）训练应优先考虑较小的模型大小和较大的训练数据集以提高推理效率，（b）假设可用的网络数据集已耗尽，扩大模型大小可能是进一步改善模型性能的唯一途径。

Abstract

large language model pre-training has become increasingly expensive, with most practitioners relying on scaling laws to allocate compute budgets<

large language model scaling laws compute budgets transformer-based models model performance

发现论文，激发创造

超越 Chinchilla-Optimal：考虑推理在语言模型扩展规律中的影响

基于大型语言模型（LLM）的扩展规律是根据参数数量和训练数据的增加估计模型质量的经验公式。然而，这些公式，包括流行的 DeepMind Chinchilla 扩展规律，忽略了推理成本。我们修改了 Chinchilla 扩展规律，以计算训练和部署具有特定质量和推理需求的模型的最佳 LLM 参数数量和预训练数据大小。我们从计算预算和真实成本的角度进行分析，发现预计具有相当大的推理需求（约 10 亿个请求）的 LLM 研究人员应该训练比 Chinchilla-optimal 更小且更长的模型。

Dec, 2023

训练最优的大型语言模型

本文研究在给定计算预算下训练变换器语言模型的最佳模型大小和标记数量，并发现对于计算优化的训练，模型大小和训练标记数量应该等量缩放。同时测试了此假设通过训练一个预测计算最优模型的 Chinchilla，该模型在大范围的下游评估任务中均匀且显著地优于 Gopher，GPT-3，Jurassic-1 和 Megatron-Turing NLG。

Mar, 2022

训练大模型，压缩小模型：重新思考 Transformers 的高效训练与推断模型大小

研究表明，即使较小的 Transformer 模型在每次迭代中执行更快，较宽且较深的模型在明显更少的步骤中收敛。此外，大型模型比小型模型更 robust，因此，高度压缩的大型模型实现比轻度压缩的小型模型更高的准确性

Feb, 2020

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

大型语言模型预训练的高效参数搜索和并行性扩展研究

研究项目侧重于并行和分布式机器学习算法的开发，特别是优化数据处理和预训练一组包括 5 个编码解码器 LLM（从 5.8 亿到 130 亿个参数不等）。我们进行了一项细致的研究，以量化三种机器学习并行性方法之间的关系，特别是探索了微软 DeepSpeed Zero Redundancy Optimizer (ZeRO) 阶段。

Oct, 2023

数据受限的语言模型的扩展

本研究考察了在数据受限的情况下缩放语言模型的方法以及采用重复数据进行训练的效果，并提出了可衡量计算优化性的缩放规律，并尝试通过增加训练数据或去除常用过滤器等方式缓解数据稀缺问题。

May, 2023

语言模型的可靠性扩展：超级训练与下游任务

基于语言模型的缩放定律，本研究通过建立 104 个模型的测试平台，以不同数量的标记在三个数据分布上进行训练，研究了超过训练的情况下的缩放和语言模型的下游任务性能之间的关系。

Mar, 2024

提高大型语言模型的推理效率：研究优化策略与架构创新

通过跳过 Transformer LLMs 中后面的 attention 子层，可以有效地对大型语言模型进行压缩，提升性能并降低计算成本。在 Llama 2 7B 上观察到 21% 的生成速度提升，并出乎意料地改善了在多个常见基准测试中的性能。

Apr, 2024

语言模型的算法进展

自 2012 年至 2023 年，使用 Wikitext 和 Penn Treebank 的 200 多个语言模型评估数据集，我们发现为达到一定性能门槛所需的计算量每 8 个月减少一半，置信区间为 5 到 14 个月，远快于 Moore 定律关于硬件提升的速度。我们估计了增强的缩放定律，可以量化算法进展并确定缩放模型与训练算法创新的相对贡献。尽管算法进展迅速且新架构（如变压器）的发展，我们的分析显示在这段时间内计算量对整体性能改进的贡献更大。尽管受噪声基准数据限制，我们的分析量化了语言建模的快速进展，并阐明了计算量与算法的相对贡献。

Mar, 2024

基于有限领域数据的廉价推理专用语言模型

大语言模型在应用到缺乏大量推理预算和大量领域内训练集的任务中具有多样性，但具有挑战性。本研究规范了这些约束，并区分了四个重要变量：预训练预算（用于在目标领域之前进行训练）、专业预算（用于在目标领域之后进行训练）、推理预算和领域内训练集的大小。在这些设置中，我们比较了机器学习文献中的不同方法。受到推理成本的限制，我们找到了比训练非常大的基础变压器模型更好的替代方案。特别是，我们发现超网络和专家混合模型对于大的预训练预算具有更好的困惑度，而在重要抽样数据集上训练的小型模型对于大的专业预算是有吸引力的。

Feb, 2024