ReLU MLP 中 $μ$P 学习率的深度依赖性

May, 2023

ReLU MLP 中 $μ$P 学习率的深度依赖性

Depth Dependence of $μ$P Learning Rates in ReLU MLPs

Samy Jelassi, Boris Hanin, Ziwei Ji, Sashank J. Reddi, Srinadh Bhojanapalli...

TL;DR本研究考虑了具有均场权重初始化的宽度为 $n$ 且深度为 $L$ 的随机全连接 ReLU 神经网络，在此基础上研究了随着 $n$ 和 $L$ 的变化，最大更新学习率的依赖性以及其关于 $L$ 的尺度变化。结果表明，除了第一层和最后一层的权重以外，最大更新学习率与 $n$ 无关，但其与 $L$ 的尺度正比于 $L^{-3/2}$。

Abstract

In this short note we consider random fully connected relu networks of width $n$ and depth $L$ equipped with a mean-field weight initialization

relu networks mean-field weight initialization learning rate random fully connected gradient descent

发现论文，激发创造

大规模 $μ$ 转让的探索

大型神经网络模型的初始化和学习速率通常基于启发式方法，本研究通过对普遍存在的 Transformer 架构进行实证研究，探究 µP（µ-Parameterization）是否在实践中能够提供最佳的学习速率，并发现在大多数重要情况下 µ-Transfer 均可正常工作，但也存在一些令人惊讶的情况。

Apr, 2024

ReLU 浅层神经网络的逼近速度

ReLU shallow neural networks can uniformly approximate functions from the H"older space with rates close to the optimal one in high dimensions.

Jul, 2023

关于 ReLU 网络的最优逼近速率及其宽度和深度的影响

研究如何使用深层前馈神经网络以最优近似方式处理 Holder 连续函数和 Lipschitz 连续函数，并验证 ReLU 网络在宽度和深度上的优越性，同时得出近似速率达到最优的结论。

Feb, 2021

形状和非形状神经网络的微分方程缩放极限

基于微分方程，本文研究了不同类型的神经网络，包括带有改变规模的激活函数和不带改变规模的激活函数的网络，以及归一化方法与激活函数的关系。

Oct, 2023

学习窄的一层 ReLU 网络

我们提出了一个基于随机高阶矩张量收缩的多尺度算法，用于发现个别神经元。在学习由 $k$ 个 ReLU 激活的线性组合方面，该算法是首个在多项式时间内成功的，而且无需额外假设网络的正系数或隐藏权重向量的矩阵具有良好的条件数。

Apr, 2023

深度 ReLU 网络学习所需的过度参数化程度是多少？

本研究探讨了在过度参数化的深度神经网络中，当网络宽度大于训练样本大小和目标误差的高次多项式的倒数时，通过（随机）梯度下降学习的深度神经网络可以获得良好的优化和泛化性能。此外，我们还构建了深层 ReLU 网络的学习保证，使得网络宽度对 n 和 ϵ 的对数具有良好保证。

Nov, 2019

量子化深度神经网络的平均场理论：量化深度平衡

利用平均场技术对具有量化激活的网络进行评估，推导了最大化信号传播的初始值设定方案，进一步得到了一个 NP 难度问题的解决办法，从而在神经网络中优化了量化和深度之间的权衡关系。

Jun, 2019

光滑函数的深度网络逼近

本文研究了深度修正线性单元网络关于宽度和深度同时逼近平滑函数的最优逼近误差特性，并且证明了多元多项式可以被宽度为 O（N）和深度为 O（L）的深 ReLUNetwork 逼近，而且证明了具有 O（N lnN）宽度和 O（L lnL）深度的深 ReLUNetwork 能够用近乎最优的逼近误差逼近 f∈ C^s ([0,1]^d)。

Jan, 2020

关于 ReLU 神经网络的最佳记忆能力

本研究探讨了前向 ReLU 神经网络的记忆能力，发现使用大约 O (sqrt (N)) 个参数可以记忆任何满足一定可分性假设的 N 个点。我们还提出了一个更一般化的构造，可以使用更少的大约 N/L 个参数记忆 N 个样本，其中 1≤L≤sqrt (N)。我们的构造使用具有大位复杂度的权重，证明了这种大位复杂度对于用一个次线性数量参数进行记忆既是必要的又是充分的。

Oct, 2021

在多项式时间内可靠地学习 ReLU

本研究提出了有效学习基于 ReLU 的常深度网络的算法，该算法运用了核方法、多项式逼近和凸优化的 “双损失” 方法，同时获得了解决 “凸分段线性拟合” 和 “在单位球上低权重多项式的噪音重构” 等其他应用。

Nov, 2016