尾巴的故事：模型崩塌作为比例定律的变化

Feb, 2024

尾巴的故事：模型崩塌作为比例定律的变化

A Tale of Tails: Model Collapse as a Change of Scaling Laws

Elvis Dohmatob, Yunzhen Feng, Pu Yang, Francois Charton, Julia Kempe

TL;DRAI 模型规模扩大时，神经缩放定律成为预测大型模型在增加容量和原始（人工或自然）训练数据大小时改进的关键工具。然而，流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐含有越来越多的合成数据。本文通过缩放定律的观点开发了一个有关模型崩溃的理论框架，发现了一系列衰变现象，包括缩放的损失、与代数数量的缩放的变化、技能的 “损失” 以及混合人工和合成数据时的理解。我们通过对一个算术任务和使用大型语言模型 Llama2 进行的文本生成的大规模实验验证了我们的理论。

Abstract

As AI model size grows, neural scaling laws have become a crucial tool to predict the improvements of large models when increasing capacit

neural scaling laws large models synthetic data model collapse scaling laws

发现论文，激发创造

缩放定律无法按比例缩放

随着数据集规模的增大，对大型人工智能模型进行训练的数据中包含的不同社群数量可能增加，而每个社群可能持有不同的价值观，这对于刻度律模型的性能评估可能存在风险。

Jul, 2023

图上的神经标度法则

通过研究深度图模型的扩展性，本文从模型和数据两个角度揭示了神经扩展定律，并提出了针对图数据的模型和数据扩展定律，为构建大规模图模型提供了重要见解。

Feb, 2024

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

声学模型的缩放率

本文研究机器学习中的自回归生成模型和声学模型，探讨其性能和规模之间的比例关系，通过预测各项损失量，建立规模预测和性能选择间的联系，提出了几个调整性能的超参数的方案

Jun, 2021

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

揭开缩放法则之迷：第一部分

本技术报告确认原始 OpenAI 论文中提出的缩放定律公式在将模型大小扩大至 330 亿时仍然有效，但这些公式中的常数系数依赖于实验设置。我们细致地确定了影响因素，并提供透明的逐步指导，通过在包含 1M~60M 参数的模型上进行训练估算出缩放定律数学公式中的所有常数项。利用这些估算公式，我们展示了在其训练之前准确预测多达 330B 参数模型的各种属性的能力，包括 (1) 最小可能测试损失；(2) 实现特定损失所需的最小训练步骤和处理的标记数；(3) 在任何损失值上具有最佳时间 / 计算权衡的关键批大小；以及 (4) 完整的测试损失轨迹和任意批大小。

Mar, 2024

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022

合成数据训练的糟糕程度：语言模型崩溃的统计分析

模型崩溃是指在使用之前训练的模型生成的合成数据训练新模型时性能下降的现象，本文通过统计模型对各种递归训练情景的影响进行了深入研究，发现当仅使用合成数据进行训练时无法避免模型崩溃，但当混合使用真实数据和合成数据时，我们提供了在合成数据量不超过一定阈值时模型崩溃可以最终避免的估计值，我们的理论结论得到了经验验证的支持。

Apr, 2024

一种可精确求解的涌现与缩放规律模型

深度学习模型的发展速度、数据量和模型规模的增加会导致其展示出解决新问题的突然能力，这被称为发生现象。本文提出了一个基于技能的框架，其中每一项新能力都被表示为基函数。我们在这个技能基上解决了一个简单的多线性模型，并得到了与培训时间、数据量、模型规模和最佳计算（C）有关的新能力的出现以及丢失的尺度规律的解析表达式。我们将详细的计算结果与在多任务稀疏奇偶性训练数据上训练的两层神经网络的直接模拟进行了比较，其中数据集的任务分布符合幂律分布。我们的简单模型使用了单一的拟合参数，能够捕捉到神经网络中随着训练时间、数据量或模型规模增加而出现的多个新技能的 S 型发生现象。

Apr, 2024