重新思考战略环境下的学习尺度定律

Feb, 2024

重新思考战略环境下的学习尺度定律

Rethinking Scaling Laws for Learning in Strategic Environments

Tinashe Handina, Eric Mazumdar

TL;DR通过研究机器学习模型的扩展部署，本论文考察了模型和策略交互对规模定律的影响，发现战略交互可能破坏了常规的规模定律，同时提出了一种新的游戏模型选择范式。

Abstract

The deployment of ever-larger machine learning models reflects a growing consensus that the more expressive the model$\unicode{x2013}$and the more data one has access to$\unicode{x2013}$the more one can improve performance. As models get deployed in a variety of real world scenarios, t

machine learning models strategic environments scaling laws strategic interactions model-selection

发现论文，激发创造

缩放定律无法按比例缩放

随着数据集规模的增大，对大型人工智能模型进行训练的数据中包含的不同社群数量可能增加，而每个社群可能持有不同的价值观，这对于刻度律模型的性能评估可能存在风险。

Jul, 2023

观察性缩放律与语言模型性能的可预测性

通过观测法利用多个已有模型家族构建单一的扩展律，展示了复杂的扩展现象是可预测的，模型性能可以从简单的非代理基准准确预测，预测了后期训练干预的影响。

May, 2024

深度学习的扩展是可预测的，实证的

本文采用实证方法针对机器翻译、语言建模、图像处理和语音识别等 4 个机器学习领域的数据，研究训练集大小、模型规模与推广误差之间的关系，结果表明推广误差遵循幂定律缩放，且模型改进只改变误差而不影响幂指数。此外，模型大小随数据规模的增大缩小，这些研究对于深度学习的研究、实践和系统设计具有重要意义。

Dec, 2017

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022

尾巴的故事：模型崩塌作为比例定律的变化

AI 模型规模扩大时，神经缩放定律成为预测大型模型在增加容量和原始（人工或自然）训练数据大小时改进的关键工具。然而，流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐含有越来越多的合成数据。本文通过缩放定律的观点开发了一个有关模型崩溃的理论框架，发现了一系列衰变现象，包括缩放的损失、与代数数量的缩放的变化、技能的 “损失” 以及混合人工和合成数据时的理解。我们通过对一个算术任务和使用大型语言模型 Llama2 进行的文本生成的大规模实验验证了我们的理论。

Feb, 2024

图上的神经标度法则

通过研究深度图模型的扩展性，本文从模型和数据两个角度揭示了神经扩展定律，并提出了针对图数据的模型和数据扩展定律，为构建大规模图模型提供了重要见解。

Feb, 2024

使用桌游进行尺度律研究

本文通过使用 AlphaZero 和 Hex 的一系列实验，展示了基于模型大小和问题规模的机器学习实验结果可以被可靠地外推，并且同时可转化为测试和训练时间的计算能力的权衡来维持表现。

Apr, 2021

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

通过自适应策略加速 Vision Transformer 的训练：导航扩展法则

最近几年，深度学习领域的最新发展主要由大规模模型主导，这些模型在大量数据上进行了预训练。本文在视觉任务和 Vision Transformers 家族中，通过引导缩放规律，设计出了计算优化的自适应模型，并证明其胜过静态模型。

Nov, 2023