计算具有非平凡泛化界的深度(随机)神经网络,其参数数量远多于训练数据
本文提出了两个理论,分别使用稳定性和PAC-Bayesian结果的非渐进离散时间分析,研究了Stochastic Gradient Langevin Dynamics(SGLD)在非凸目标下的泛化误差,其边界没有隐含依赖于参数的维数、规范或其他容量测量,优美地刻画了非凸设置中“快速训练保证泛化”的现象
Jul, 2017
本文应用Bayes-Stability框架证明算法相关的广义误差界,得到了随机梯度 Langevin 动力学以及其他一些带噪声梯度的方法(例如加动量,小批量和加速,熵-SGD)的数据相关的新广义误差界,论文结果较之前相关研究更紧凑。
Feb, 2019
研究深度神经网络的训练和泛化,在过度参数化的条件下,通过神经切向随机特征模型(NTRF)来限制泛化误差,并建立了神经切向内核(NTK)的联系。
May, 2019
本文研究了过参数化的深层网络使用随机梯度下降法(SGD)能够良好推广的能力,提出了一种PAC-Bayesian框架,利用这种能力为原始网络提供界限,同时不会受到权重矩阵谱范数乘积的影响。
May, 2019
本研究提出了关于深度学习的泛化误差的准则,介绍了一种基于边际似然的PAC-Bayesian Bound方法来预测泛化误差,并进行了广泛实证分析以评估该方法的效果和特性。
Dec, 2020
本文基于PAC-Bayesian方法推导出了两种主要的图神经网络(GCNs和MPGNNs)的泛化界,进一步显示节点最大度数和权重的谱范数支配了这两种模型的泛化界。
Dec, 2020
本文基于Neu et al. (2021)的最新研究,在信息论方面提出了用于衡量机器学习模型的泛化误差的新上界。 通过应用这些上界,分析了线性和ReLU网络的泛化行为,并得出了关于SGD训练的洞见以及一种新的简单的正则化方案。实验结果表明此正则方案的表现与当前最先进的方案相媲美。
Oct, 2021
深度神经网络在实际应用中表现出卓越的泛化能力,本研究旨在通过信息理论的泛化界限来捕捉深度对于监督学习的影响和益处。通过从网络内部表示的训练和测试分布的Kullback-Leibler(KL)散度或1-Wasserstein距离导出了两个层次性的泛化误差界限。KL散度界限随着层索引的增加而收缩,而Wasserstein界限暗示了存在一个层作为泛化漏斗,它达到了最小的1-Wasserstein距离。在具有线性DNN的二元高斯分类设置下,推导出了两个界限的解析表达式。通过分析三个正则化DNN模型(Dropout,DropConnect和高斯噪声注入)的连续层之间的强数据处理不等式(SDPI)系数,量化了相关信息度量在网络深入时的收缩情况。这使得我们的泛化界限能够捕捉与网络架构参数相关的收缩情况。将结果特化为具有有限参数空间和Gibbs算法的DNNs表明,在这些示例中,更深而较窄的网络架构具有更好的泛化能力,尽管这个观点的广泛适用性仍然有待讨论。
Apr, 2024
采用信息理论的视角探索深度神经网络在有监督分类中的理论基础,分析了拟合误差、模型风险和泛化误差上界的相关概念及其对样本数据质量和正则化超参数设置的指导作用,研究发现过度参数化、非凸优化和平坦极小值在深度神经网络中的影响,并通过实证验证证实了理论发现与实际风险之间显著的正相关关系。
Jun, 2024