图上的神经标度法则

Feb, 2024

Neural Scaling Laws on Graphs

Jingzhe Liu, Haitao Mao, Zhikai Chen, Tong Zhao, Neil Shah...

TL;DR通过研究深度图模型的扩展性，本文从模型和数据两个角度揭示了神经扩展定律，并提出了针对图数据的模型和数据扩展定律，为构建大规模图模型提供了重要见解。

Abstract

deep graph models (e.g., graph neural networks and graph transformers) have become important techniques for leveraging knowledge across various types of graphs. Yet, the scaling properties of →

deep graph models scaling properties neural scaling laws model scaling data scaling

发现论文，激发创造

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

显微镜下的比例定律：从小尺度实验预测变形器的性能

本文通过对自然语言处理任务的实证研究，发现神经比例定律不仅仅用于模型性能的预测，还可用于模型加速开发、优化模型选型以及模型的收敛调试等方面。

Feb, 2022

大 N 场论中的神经比例定律：超越无岭极限的可解模型

基于大 N 场论方法，我们解决了一个由 Maloney，Roberts 和 Sully 提出的模型，该模型为研究神经网络的缩放定律提供了一个简化的环境。我们的解决方案将这个模型的结果推广到了一般非零的岭参数值，这对于规范模型的行为是至关重要的。除了获得新的和更精确的缩放定律，我们还揭示了在图表级别上的对偶变换，该变换解释了模型和训练数据集大小之间的对称性。相同的对偶变换也支持最近设计神经网络来模拟量子场论的努力。

May, 2024

重新审视语言和视觉中的神经缩放定律

本篇研究介绍一种更严谨的方法来预测深度学习中的规模效益，提供了一种可靠的方法来估计缩放参数并通过发布基准数据集以帮助该领域的研究。

Sep, 2022

神经缩放定律解释

该研究提出了一种理论，解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系，并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。

Feb, 2021

神经语言模型的缩放律

本文研究了语言模型性能对交叉熵损失计算的经验性规律，发现损失与模型大小、数据集大小和训练所用计算量呈幂律关系，而网络宽度或深度变化对性能影响较小，最优的计算效率可通过训练大型模型、使用适量数据并在达到最佳性能前停止训练来实现。

Jan, 2020

尾巴的故事：模型崩塌作为比例定律的变化

AI 模型规模扩大时，神经缩放定律成为预测大型模型在增加容量和原始（人工或自然）训练数据大小时改进的关键工具。然而，流行模型的广泛使用意味着在线数据和文本的生态系统将逐渐含有越来越多的合成数据。本文通过缩放定律的观点开发了一个有关模型崩溃的理论框架，发现了一系列衰变现象，包括缩放的损失、与代数数量的缩放的变化、技能的 “损失” 以及混合人工和合成数据时的理解。我们通过对一个算术任务和使用大型语言模型 Llama2 进行的文本生成的大规模实验验证了我们的理论。

Feb, 2024

缩放定律无法按比例缩放

随着数据集规模的增大，对大型人工智能模型进行训练的数据中包含的不同社群数量可能增加，而每个社群可能持有不同的价值观，这对于刻度律模型的性能评估可能存在风险。

Jul, 2023

观察性缩放律与语言模型性能的可预测性

通过观测法利用多个已有模型家族构建单一的扩展律，展示了复杂的扩展现象是可预测的，模型性能可以从简单的非代理基准准确预测，预测了后期训练干预的影响。

May, 2024

神经缩放定律失效

研究了神经网络在多种任务中的扩展行为及其泛化预测模型，提出一种称为 BNSL 的平滑断电力法函数形式，相较于其他神经网络扩展行为函数形式，其推广的预测更加准确、准确地模拟和推广其他函数形式无法表达的特定情况下的不单调转折点和明显拐点扩展行为。

Oct, 2022