用对数次数即可使浅层 ReLU 网络梯度下降达到任意小的测试误差

Sep, 2019

用对数次数即可使浅层 ReLU 网络梯度下降达到任意小的测试误差

Polylogarithmic width suffices for gradient descent to achieve arbitrarily small test error with shallow ReLU networks

Ziwei Ji, Matus Telgarsky

TL;DR该研究表明，通过梯度下降训练过度参数化的神经网络可以实现任意低的训练误差和测试误差。在两层 ReLU 网络中，只需要多项式量级的宽度和样本数量进行训练，可以达到较低的测试误差，并在无穷宽度下得出紧密样本复杂度分析。

Abstract

Recent theoretical work has guaranteed that overparameterized networks trained by gradient descent achieve arbitrarily low training error, and sometimes even low →

overparameterized networks gradient descent two-layer relu networks test error sample-complexity analysis

发现论文，激发创造

深度 ReLU 网络学习所需的过度参数化程度是多少？

本研究探讨了在过度参数化的深度神经网络中，当网络宽度大于训练样本大小和目标误差的高次多项式的倒数时，通过（随机）梯度下降学习的深度神经网络可以获得良好的优化和泛化性能。此外，我们还构建了深层 ReLU 网络的学习保证，使得网络宽度对 n 和 ϵ 的对数具有良好保证。

Nov, 2019

深度线性神经网络优化中证明宽度的重要性

证明全连接线性神经网络每个隐藏层的宽度大于 $\tilde\Omega (L \cdot r \cdot d_{\mathrm {out}} \cdot \kappa^3)$ 时，高斯随机初始化的梯度下降算法会以线性速率收敛到全局最小值，但窄层深度线性神经网络需要 $\exp\left (\Omega\left (L\right)\right)$ 操作时间，这表明宽层对于优化深度模型是必要的。

Jan, 2019

关于使用线性宽度进行深度 ReLU 网络梯度下降全局收敛的证明

本文利用 Lipschitz 性质，仅需跟踪最后一个隐藏层的输出的演变，即可证明标准平方误差梯度下降可在单个宽层的 ReLU 网络中实现全局收敛，并显示了一些其跟先前的技术相比的改进。

Jan, 2021

广泛和深度神经网络的随机梯度下降的泛化界限

研究深度神经网络的训练和泛化，在过度参数化的条件下，通过神经切向随机特征模型 (NTRF) 来限制泛化误差，并建立了神经切向内核 (NTK) 的联系。

May, 2019

光滑函数的深度网络逼近

本文研究了深度修正线性单元网络关于宽度和深度同时逼近平滑函数的最优逼近误差特性，并且证明了多元多项式可以被宽度为 O（N）和深度为 O（L）的深 ReLUNetwork 逼近，而且证明了具有 O（N lnN）宽度和 O（L lnL）深度的深 ReLUNetwork 能够用近乎最优的逼近误差逼近 f∈ C^s ([0,1]^d)。

Jan, 2020

使用梯度下降法学习单层神经网络的超多项式下界

利用梯度下降证明了学习单层神经网络的第一个超多项式下限，它包括使用小批量的梯度下降，需要锐利的激活函数和适用于特定查询的以前结果。与以前的结果不同，我们的结果适用于包括 ReLU 和 sigmoid 在内的广泛激活类别，并且围绕一种新型神经网络的结构构建。

Jun, 2020

学习浅层网络的更快更简单算法

我们研究了学习从标准的 d 维高斯度量中绘制的带有标签的示例的 k 个 ReLU 激活的线性组合的问题。我们发现了一个简化的一阶段版本的算法，其运行时间只有 (d/ε)^O (k^2)。

Jul, 2023

超参数化的两层 ReLU 神经网络学习研究：从 NTK 出发

本文研究采用梯度下降算法学习双层神经网络，证明其具有多项式样本和多项式时间复杂度，且可以学习到真实网络，而任何具有多项式样本的核方法均具有 Omega 误差下限。

Jul, 2020

关于 ReLU 网络的最优逼近速率及其宽度和深度的影响

研究如何使用深层前馈神经网络以最优近似方式处理 Holder 连续函数和 Lipschitz 连续函数，并验证 ReLU 网络在宽度和深度上的优越性，同时得出近似速率达到最优的结论。

Feb, 2021

深度学习的超参数化收敛理论

通过对大规模深层神经网络的优化方法的研究，我们证明了 SGD 可以在多项式时间内发现 DNNs 训练目标上的全局极小值。

Nov, 2018