基于路径范数的 ReLU 神经网络容量控制

Sep, 2018

基于路径范数的 ReLU 神经网络容量控制

Capacity Control of ReLU Neural Networks by Basis-path Norm

Shuxin Zheng, Qi Meng, Huishuai Zhang, Wei Chen, Nenghai Yu...

TL;DR提出一种基于一组线性独立路径的新范数，用于更准确地衡量神经网络的容量，在基于此范数的正则化方法下获得更好的测试性能。

Abstract

Recently, path norm was proposed as a new capacity measure for neural networks with Rectified Linear Unit (ReLU) activation function, which takes the rescaling-invariant property of ReLU into account. It has been

path norm relu activation function capacity measure generalization behavior basis-path norm

发现论文，激发创造

现代网络的路径 - 范数工具包：后果、承诺和挑战

通过使用支持一般 DAG ReLU 网络的路径范数工具包，该研究建立了适用于现代神经网络的泛化界限，该工具包不仅可以恢复或超越已知的界限，而且还具有计算简便、对网络对称性不变以及相对于算符范数的优化尖锐度等路径范数的优点。该工具包的多功能性和易于实施性使我们能够在 ImageNet 上对 ResNets 的最尖锐的已知界限进行数值评估，从而挑战基于路径范数的泛化界限的具体承诺。

Oct, 2023

路径度量、剪枝和泛化

证明了一种新的与参数路径度量相关的函数距离上界，在网络修剪和量化等方面具有广泛适用性，同时提供了新的理论推广界限和与缩放无关的修剪的有前景的概念验证。

May, 2024

使用 ReLU 激活函数的循环神经网络的路径归一化优化

研究了循环神经网络参数空间的几何形状，并开发了一种适应于该几何形状的路径 - SGD 优化方法，它可以学习具有 ReLU 激活的普通 RNN。在一些需要捕捉长期依赖结构的数据集上，我们证明 path-SGD 可以显著提高 ReLU RNN 的可训练性，与使用 SGD 训练的 RNN 相比，即使使用各种最近推荐的初始化方案。

May, 2016

神经网络规范化容量控制

研究了一种常规范限制前馈网络的容量、凸性和特征。

Feb, 2015

本文提出了适用于 ReLU 神经网络的 Banach 空间，其中包含了所有有限全连接 L 层网络及其 L^2 - 极限对象，具有低的 Rademacher 复杂性和良好的泛化特性，函数可以通过多层神经网络进行近似，收敛速率与维度无关。

Jul, 2020

探究过度参数化在神经网络泛化中的作用

本研究提出了基于单元能力的复杂度度量，为两层 ReLU 网络提供了更紧密的泛化界限，这可能有助于解释神经网络过参数化的泛化改进现象。同时，我们还提出了一个匹配的 Rademacher 复杂性下限，该下限优于之前神经网络的容量下限。

May, 2018

神经网络的 Fisher-Rao 度量、几何和复杂性

从不变性观点研究深度神经网络的几何和容量度量之间的关系，引入了具有期望不变性的 Fisher-Rao 范数作为新的容量概念，并发现了其分析特征和规范比较不等式，证明了其作为多种基于范数的复杂度度量的伞兵角色，讨论了引入新的度量方式对泛化误差的影响，使用 CIFAR-10 数据集的大量数值实验支持了理论分析的发现，研究的分析基于多层整流器网络局部导数的关键结构引理。

Nov, 2017

在 $W^{s,p}$ 范数下使用深度 ReLU 神经网络进行逼近的误差界

通过 ReLU 神经网络的微积分构建人工神经网络，我们分析了针对弱 Sobolev 范数的 Sobolev 正则函数的逼近速率。其次，我们为 Sobolev 正则函数的类建立了对于 ReLU 神经网络的逼近下界，并将结果拓展到应用于偏微分方程数值分析的最相关情景。

Feb, 2019

ReLU 网络在低正则函数空间中的逼近误差和复杂度界

通过 ReLU 神经网络，我们考虑了一类具有较小正则性假设的有界函数的逼近问题。我们展示了逼近误差可以由目标函数的均匀范数和网络宽度与深度的乘积的倒数来上界。我们从傅里叶特征残差网络中继承了这个逼近误差界，傅里叶特征残差网络是一种使用复指数激活函数的神经网络。我们的证明是具有建设性的，并通过对傅里叶特征残差网络逼近 ReLU 网络的复杂性分析进行。

May, 2024

ReLU 网络的最优集合和解路径

通过把非凸培训问题重新定义为凸程序，我们开发了一个分析框架来表征最佳 ReLU 神经网络的集合，并指出凸参数化的全局最优解是由一个多面体集合给出的。我们还扩展了这种特征，以获得非凸培训目标的最优集合。由于 ReLU 培训问题的所有静态点都可以表示为子采样凸计划的最优解，因此我们的工作为所有非凸目标的临界点提供了一个一般表达式。我们利用这些结果，提供了一种计算最小网络的最佳减枝算法，建立了 ReLU 网络正则化路径连续的条件，并开发了最小 ReLU 网络的灵敏度结果。

May, 2023