面对不确定世界的神经缩放规律
通过建立信息论基础,我们研究了神经缩放定律,并揭示了在无限宽度的两层神经网络生成的数据中,数据和模型大小的最佳关系大致呈线性,进一步验证了大规模的实证研究结果。
Jun, 2024
神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高,这一现象被称为神经缩放定律,而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的;研究表明,神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学,但在后期表现为 $ extit {width}^{-c}$ 的速度,其中 $c$ 取决于架构和任务的结构;此外,理论上显示了由于数据的重复重用,训练和测试损失之间的差距可以随时间逐渐增大。
Feb, 2024
神经缩放定律是指模型性能随规模增加而改善的现象。本文通过逼近理论分析了神经缩放定律,并预测 MSE 损失随着参数数量的减小而衰减,其中 N 是模型参数数量,d 是固有输入维度。虽然他们的理论对某些情况(例如 ReLU 网络)有效,但令人惊讶的是,我们发现简单的一维问题 y=x^2 表现出与他们预测(α=4)不同的缩放定律(α=1)。我们研究了神经网络并发现新的缩放定律源于 “大乐透” 模型:平均而言,更宽的网络具有更多 “大乐透号码”,而这些号码被集成以减少输出的方差。我们通过对单个神经网络的机械解释和统计研究来支持集成机制。将 N^{-1} 的缩放定律归因于大乐透的 “中心极限定理”。最后,我们讨论了它对大型语言模型和学习的统计物理类型理论的潜在影响。
Oct, 2023
我们发现身体感受的对数和刺激之间的关系 - 韦伯 - 费希纳定律对人类概念的学习算法有利,特别是通过神经网络的对数幂级数的作用,可以在少数训练迭代和有限的计算资源内加速机器对人类概念的学习。
Apr, 2022
通过将神经网络视为一种随时间推移的动力系统,我们发现网络的输运映射中存在低动能位移偏差,并将其与泛化性能相关联,从而提出了一种新的学习算法,该算法可自动适应给定任务的复杂度,并在低数据情况下产生具有高泛化能力的网络。
Sep, 2020
基于大 N 场论方法,我们解决了一个由 Maloney,Roberts 和 Sully 提出的模型,该模型为研究神经网络的缩放定律提供了一个简化的环境。我们的解决方案将这个模型的结果推广到了一般非零的岭参数值,这对于规范模型的行为是至关重要的。除了获得新的和更精确的缩放定律,我们还揭示了在图表级别上的对偶变换,该变换解释了模型和训练数据集大小之间的对称性。相同的对偶变换也支持最近设计神经网络来模拟量子场论的努力。
May, 2024
该研究提出了一种理论,解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系,并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。
Feb, 2021
分析一个由 214,200 个人类相似性判断和 390,819 个人类普遍性判断数据所组成的高维数据集,提供支持 Shepard 通用相似度定律的间接证据。
Jun, 2023
本文研究了神经网络的随机分析,通过解决技术上的一些难点,证明了在大规模网络和大规模随机梯度下降训练迭代的渐近情况下,神经网络参数的经验分布收敛于一个非线性偏微分方程的解,此结果可以被认为是神经网络的大数定律。此外,我们的分析结果发现神经网络的训练参数渐近独立,这被称为 “混沌传播” 性质。
May, 2018