路径度量、剪枝和泛化
我们通过利用真实度量(目标函数)的特定结构,构建了一个近似真实度量的结构化深层 ReLU 神经网络,从而研究了度量和相似性学习的泛化性能,推导了度量和相似性学习问题的过度泛化误差界限,并通过仔细估计逼近误差和估计误差,得出了一个最佳的过度风险率,这是首次的度量和相似性学习的过度泛化错误分析,此外,我们还研究了具有一般损失的度量和相似性学习的真实度量的属性。
May, 2024
对于具有最先进的逼近误差的 ReLU 结构,本研究的主要结果是其实现参数的增长至多是多项式的,与现有结果相比,在大多数情况下,特别是对于高维输入,该增长率优于现有结果。
Jun, 2024
通过使用支持一般 DAG ReLU 网络的路径范数工具包,该研究建立了适用于现代神经网络的泛化界限,该工具包不仅可以恢复或超越已知的界限,而且还具有计算简便、对网络对称性不变以及相对于算符范数的优化尖锐度等路径范数的优点。该工具包的多功能性和易于实施性使我们能够在 ImageNet 上对 ResNets 的最尖锐的已知界限进行数值评估,从而挑战基于路径范数的泛化界限的具体承诺。
Oct, 2023
我们通过拓扑结构来收紧边界,使用一种基于整数优化的计算方法,为消息传递神经网络(MPNNs)提供鲁棒的证明,从而解决图神经网络(GNNs)容易受到攻击的问题。
Feb, 2024
本研究旨在探究深度神经网络的通用逼近性质与数据集拓扑特征之间的关系,并通过拓扑结构推导出限制网络宽度的上界。通过设计三层神经网络中的 ReLU 激活函数和最大池化操作,可以逼近一个由紧凑凸多面体包围的指示函数,同时拓展到单纯复合体,以拓扑空间的 Betti 数限制推导上界,并进一步证明了三层 ReLU 网络的通用逼近性质。
May, 2023
研究了循环神经网络参数空间的几何形状,并开发了一种适应于该几何形状的路径 - SGD 优化方法,它可以学习具有 ReLU 激活的普通 RNN。在一些需要捕捉长期依赖结构的数据集上,我们证明 path-SGD 可以显著提高 ReLU RNN 的可训练性,与使用 SGD 训练的 RNN 相比,即使使用各种最近推荐的初始化方案。
May, 2016
通过把非凸培训问题重新定义为凸程序,我们开发了一个分析框架来表征最佳 ReLU 神经网络的集合,并指出凸参数化的全局最优解是由一个多面体集合给出的。我们还扩展了这种特征,以获得非凸培训目标的最优集合。由于 ReLU 培训问题的所有静态点都可以表示为子采样凸计划的最优解,因此我们的工作为所有非凸目标的临界点提供了一个一般表达式。我们利用这些结果,提供了一种计算最小网络的最佳减枝算法,建立了 ReLU 网络正则化路径连续的条件,并开发了最小 ReLU 网络的灵敏度结果。
May, 2023
最近深度学习取得了一些极有前途的成果,尤其是在深度神经网络的泛化能力方面,然而相关文献中仍缺乏一种全面的理论来解释为什么过度参数化的模型能够在拟合训练数据的同时表现出良好的泛化能力。本文通过估计通过梯度下降从初始参数向量获得的网络集合的 Rademacher 复杂度,提出了对前馈 ReLU 网络的泛化误差进行 PAC 类型边界的方法。关键思想是限定网络梯度对优化轨迹上输入数据扰动的敏感性。所得到的边界不显式依赖于网络的深度。我们在 MNIST 和 CIFAR-10 数据集上进行了实验证实。
Oct, 2023
从不变性观点研究深度神经网络的几何和容量度量之间的关系,引入了具有期望不变性的 Fisher-Rao 范数作为新的容量概念,并发现了其分析特征和规范比较不等式,证明了其作为多种基于范数的复杂度度量的伞兵角色,讨论了引入新的度量方式对泛化误差的影响,使用 CIFAR-10 数据集的大量数值实验支持了理论分析的发现,研究的分析基于多层整流器网络局部导数的关键结构引理。
Nov, 2017