深度神经网络内存高效训练的流形正则化
该研究探讨了深度神经网络中过拟合问题的原因,并提出了基于流形假设的正则化方法,包括有标签和无标签情况下的流形正则化,实验证明这些方法可以显著提高模型泛化性能。
Nov, 2015
提出一种新的深度神经网络训练目标函数,叫做流形规范网络(MRnet),通过最小化样本和对抗样本的多层嵌入结果之间的差异来提高对抗性鲁棒性,实验结果表明MRnet更具有对抗性鲁棒性,并帮助我们在流形上推广表示。此外将MRnet和dropout相结合,为三个著名的基准测试数据集(MNIST,CIFAR-10和SVHN)实现了有竞争的分类性能。
Nov, 2015
本文通过展示泛化能力不受网络大小控制,而受其他隐含控制方法控制的方式,阐述了优化在深度学习模型泛化中的至关重要性,并通过研究深度网络参数空间的几何和设计一种调整到此空间的最优化算法来改善泛化能力。
May, 2017
通过使用Low-Dimensional-Manifold-regularized neural Network来加强神经网络的特征提取,有效提高了在小样本情况下的泛化能力并且可以应用于同种物体的跨光谱识别。
Nov, 2017
研究神经网络中的多重流形问题,证明当网络深度相对于数据的几何和统计属性较大时,其宽度作为统计资源,使随机初始化网络的梯度集中,而其深度作为拟合资源,更易于分离类流形,基于神经切向核及其在训练超参数化神经网络方面的作用,我们为深度全连接网络的神经切向核提供了完全优化的集中速率。
Aug, 2020
本论文提出了一种新的范式,通过将所有实例的流形信息嵌入到裁剪网络的空间中(称为ManiDP),以动态地去除冗余的过滤器以最大化挖掘给定网络架构中的冗余。在几个基准测试中验证了所提出的方法的有效性,在精度和计算成本方面显示出与现有技术方法相比更好的性能可将ResNet-34的FLOP降低55.3%,且仅仅减少0.57%的Top-1精度,ImageNet。
Mar, 2021
通过几何分析深度神经网络的 memorization 结构及相关特征,发现较深层的 memorization 更为显著,可以通过恢复层权重预防,同时与模型几何结构和 generalization 性能有关。
May, 2021
通过利用特殊结构(如Stiefel流形、simplectic Stiefel流形、Grassmann流形和simplectic Grassmann流形)对神经网络优化进行降维处理,成功地将Adam算法推广到了流形层面上,并将其用于训练转换器,可以有效地加速训练过程。
May, 2023
通过研究隐性正则化的梯度轨迹,借鉴深度线性网络梯度下降隐式正则化向低秩解的偏好性,并提出显式惩罚来模拟这种偏好,从而使单层网络可以达到深度线性网络相同的低秩逼近性能。
Jun, 2023