本文探讨了网络结构、学习机制和参数收敛速率之间的关系,提出了一种基于一阶信息的通用顺序反向传播方法,并将去噪自动编码器和dropout方法应用到该方法中,通过界定深度网络的收敛速率来提供学习参数和网络大小选择方面的见解。
Jun, 2015
研究了背景传播、深度网络、退出、参数收敛和特征去噪等方面的相互关系,提出了一种基于目标函数的反向传播收敛性分析框架,并通过实验验证了其正确性。
Nov, 2015
本文通过将dropout看作一种可计算潜在变量的方法来理解其Tractability,提出了(approximate) expectation-linear dropout神经网络,进一步分析了训练和推理中的推断gap,并证明了通过规范化dropout培训目标可以有效地控制推断gap。实验结果表明减少推断Gap可以提高图像分类性能。
Sep, 2016
本研究提出了一种名为“课程退火”的优化策略,通过逐渐在神经网络结构中添加噪声的方式,从而实施一种非常通用的课程方案,进而创造更好的模型。
Mar, 2017
本文介绍了一种替换标准分支求和的随机仿射组合方法,用于改善深度学习中过拟合问题,结合掷骰子正则化可提高CIFAR-10和CIFAR-100测试准确度,对于跳跃连接或批量归一化的架构也有鼓舞人心的结果,具有广泛的应用前景。
May, 2017
本文提出了一种新的正则化方法ShakeDrop以缓解ResNet等深度神经网络结构的过拟合问题,并引入训练稳定器保持训练的稳定性,ShakeDrop比Shake-Shake方法更为有效,并可适用于ResNet、Wide ResNet和PyramidNet,本文还通过实验证明了ShakeDrop的良好性能。
Feb, 2018
本文主要研究卷积神经网络(CNNs)的正则化问题,提出了几种改进的dropout变体,通过在卷积操作之前放置dropout操作或将BN替换为GN,以减少dropout和其后的BN之间的矛盾,以提高CNNs的训练效果和正则化。实验证明,通过这些方法构建的CNN的性能明显优于现有的CNN,这主要归功于更好的正则化和隐式模型集成效应。
Apr, 2019
该论文介绍了一种名为“多样本丢弃”的强化丢弃(dropout)技术,它可以加速训练并提高网络的泛化性能。该方法采用多个丢弃样本进行训练,并通过对这些样本的损失值求平均来减少过拟合,实验结果表明,相比原始的dropout技术,使用该方法可以得到更低的分类错误率。
May, 2019
本文研究了dropout正则化方法的两种作用:修改预期训练目标的明显作用和训练更新的随机性所导致的额外的隐含作用。通过对实验的控制和分析,提出了可以替换dropout的简化分析正则化器。
Feb, 2020
本文研究表明,与只在训练后期使用dropout的模型不同,在训练开始时使用dropout可减弱梯度方向差异和限制单个批次对模型训练的影响,从而更好地提高模型的泛化精度。
Mar, 2023