面对不确定世界的神经缩放规律

Jul, 2016

Neural scaling laws for an uncertain world

Marc W. Howard, Karthik H. Shankar

TL;DR本研究旨在探究如何最优地分布受体，提高自主神经系统在不同统计情况下的处理信息的能力，并在视觉系统的基础上解释行为型魏伯 - 费希纳定律。

Abstract

autonomous neural systems must efficiently process information in a wide range of novel environments, which may have very different statistical properties. We consider the problem of how to optimally distribute receptor

autonomous neural systems receptors neural uncertainty principle neural representations behavioral weber-fechner law

发现论文，激发创造

神经网络规模定律的信息论基础

通过建立信息论基础，我们研究了神经缩放定律，并揭示了在无限宽度的两层神经网络生成的数据中，数据和模型大小的最佳关系大致呈线性，进一步验证了大规模的实证研究结果。

Jun, 2024

神经缩放法则的动力学模型

神经网络的表现在训练时间、数据集大小和模型大小上预测性地提高，这一现象被称为神经缩放定律，而计算最优缩放定律则是将性能作为计算单元函数以选择模型大小来报告的；研究表明，神经网络在训练早期以 $1/ extit {width}$ 的速度收敛到无限宽度动力学，但在后期表现为 $ extit {width}^{-c}$ 的速度，其中 $c$ 取决于架构和任务的结构；此外，理论上显示了由于数据的重复重用，训练和测试损失之间的差距可以随时间逐渐增大。

Feb, 2024

通过中奖彩票集成的神经缩放定律

神经缩放定律是指模型性能随规模增加而改善的现象。本文通过逼近理论分析了神经缩放定律，并预测 MSE 损失随着参数数量的减小而衰减，其中 N 是模型参数数量，d 是固有输入维度。虽然他们的理论对某些情况（例如 ReLU 网络）有效，但令人惊讶的是，我们发现简单的一维问题 y=x^2 表现出与他们预测（α=4）不同的缩放定律（α=1）。我们研究了神经网络并发现新的缩放定律源于 “大乐透” 模型：平均而言，更宽的网络具有更多 “大乐透号码”，而这些号码被集成以减少输出的方差。我们通过对单个神经网络的机械解释和统计研究来支持集成机制。将 N^{-1} 的缩放定律归因于大乐透的 “中心极限定理”。最后，我们讨论了它对大型语言模型和学习的统计物理类型理论的潜在影响。

Oct, 2023

通过韦伯 - 费克纳定律加速机器学习

我们发现身体感受的对数和刺激之间的关系 - 韦伯 - 费希纳定律对人类概念的学习算法有利，特别是通过神经网络的对数幂级数的作用，可以在少数训练迭代和有限的计算资源内加速机器对人类概念的学习。

Apr, 2022

神经网络训练的最小作用量原理

通过将神经网络视为一种随时间推移的动力系统，我们发现网络的输运映射中存在低动能位移偏差，并将其与泛化性能相关联，从而提出了一种新的学习算法，该算法可自动适应给定任务的复杂度，并在低数据情况下产生具有高泛化能力的网络。

Sep, 2020

大 N 场论中的神经比例定律：超越无岭极限的可解模型

基于大 N 场论方法，我们解决了一个由 Maloney，Roberts 和 Sully 提出的模型，该模型为研究神经网络的缩放定律提供了一个简化的环境。我们的解决方案将这个模型的结果推广到了一般非零的岭参数值，这对于规范模型的行为是至关重要的。除了获得新的和更精确的缩放定律，我们还揭示了在图表级别上的对偶变换，该变换解释了模型和训练数据集大小之间的对称性。相同的对偶变换也支持最近设计神经网络来模拟量子场论的努力。

May, 2024

神经缩放定律解释

该研究提出了一种理论，解释并连接训练数据集大小和网络参数数量与已训练神经网络的测试损失之间的精确定义的幂律关系，并通过说明数据流形和一些核的频谱之间的等效性来解释了分辨率有限的缩放行为。

Feb, 2021

普遍化的普适定律适用于自然刺激

分析一个由 214,200 个人类相似性判断和 390,819 个人类普遍性判断数据所组成的高维数据集，提供支持 Shepard 通用相似度定律的间接证据。

Jun, 2023

心理物理机器学习

本文探讨使用韦伯 - 费希纳定律来将其纳入机器学习的损失函数，以提高深度学习网络的性能。

Aug, 2022

神经网络的平均场分析：大数定律

本文研究了神经网络的随机分析，通过解决技术上的一些难点，证明了在大规模网络和大规模随机梯度下降训练迭代的渐近情况下，神经网络参数的经验分布收敛于一个非线性偏微分方程的解，此结果可以被认为是神经网络的大数定律。此外，我们的分析结果发现神经网络的训练参数渐近独立，这被称为 “混沌传播” 性质。

May, 2018