深度学习中网络结构和梯度收敛的相互作用
本文探讨了网络结构、学习机制和参数收敛速率之间的关系,提出了一种基于一阶信息的通用顺序反向传播方法,并将去噪自动编码器和 dropout 方法应用到该方法中,通过界定深度网络的收敛速率来提供学习参数和网络大小选择方面的见解。
Jun, 2015
研究了深度神经网络的 dropout 正则化并提出了一种新的框架来理解深度神经网络中的加性噪声。研究了多种不同噪声并导出了其等价性,进而使 dropout 的 Monte Carlo 训练目标逼近了边缘 MAP 估计。进一步基于这些洞见提出了一种新的收缩框架用于深度神经网络,并对两种改进后的推理策略在回归基准测试中进行了调查。
Oct, 2018
单层线性网络中,DropBlock 引入了谱 k-support 正则化,促使解具有低秩和等范数的因子。这个全局极小值可以用闭合形式计算。若在最后一层应用 Dropout,某些假设下此结果可扩展到 Dropout 策略的一般类和深度非线性网络中,并用经常使用的网络结构实验验证了理论结论和假设。
Oct, 2019
研究表明使用 dropout 训练神经网络对于使用流行的修正线性激活函数的网络的有效性有多种问题,探究了测试时权重缩放推断过程的质量,比较了几何平均数和算术平均数的性能,研究了非绑定权重的集合解释对集合的效果,最后,我们调查了基于最大似然集合梯度的带有偏估计器的替代准则。
Dec, 2013
研究了深度高斯过程、网络结构、协方差函数、dropout 和正则化策略对深度网络预测性能的影响。在标准网络结构中,网络表示容量会随层数增加而减少,通过提出一种新的网络结构来避免这一问题。同时,通过分析无穷多特征变换组合的深度协方差函数,阐明了 Gaussian processes 上 dropout 的影响。
Feb, 2014
本研究通过分析深度神经网络的梯度下降技术实现,提出了控制网络复杂度的隐含规范化方法,并将其归纳为梯度下降算法的内在偏差,说明这种方法可以解决深度学习中过拟合的问题。
Mar, 2019
该研究论文探讨了 dropout 作为一种正则化技术在线性分类问题中的应用。通过比较不同正则化技术的表现,研究人员得出一些结论并分析了 dropout 的优势所在。
Dec, 2014
这篇论文提出了一种基于 Bayesian 模型的 dropout 正则化方法,该方法将噪声注入神经元输出中以提供结构化稀疏性,从而去除计算图中的低 SNR 元素,并在多个深度神经结构中实现了显著的加速。
May, 2017
该研究探讨深度网络中的过拟合问题,发现梯度下降在非线性网络中的优化动力学与线性系统是等价的,同时也推广了梯度下降的两个性质到非线性网络中:隐式正则化以及最小范数解的渐近收敛,通过这些性质,可以提高模型的泛化能力,同时在分类任务中也能得到较好的分类误差。
Dec, 2017
我们在深度神经网络的学习动态方面的理解仍然不完整。最近的研究开始揭示了这些网络的数学原理,包括 “神经坍塌” 现象,在训练的后期,DNN 内的线性分类器会收敛到特定的几何结构。然而,几何约束在学习中的作用并不仅限于这个阶段。本文对 DNN 中的梯度秩进行了全面研究,研究了体系结构选择和数据结构对梯度秩界限的影响。我们的研究不仅有助于理解 DNN 中的学习动态,而且为深度学习工程师提供了实践指导,以便做出明智的设计决策。
Feb, 2024