该研究探讨了将批归一化应用于循环神经网络的效果,结果发现在输入到隐藏层的转换中,批归一化可以加快训练收敛速度,但对于语言建模和语音识别任务上的泛化能力没有提高;同时,应用批归一化到 RNNs 比应用到前馈网络更具有挑战性,但是某些变体仍然是有益的。
Oct, 2015
本文提出一种基于层归一化的深度神经网络训练新方法,能够有效稳定循环神经网络中的隐藏状态动态,其训练时间较之前的技术有大幅度降低。
Jul, 2016
介绍了一种新的归一化层 Batch Layer Normalization(BLN),可以在深度神经网络中减少内部协变量偏移问题,通过适应性的权衡 mini-batch 和特征标准化,并且具有比批归一化和层归一化更快的收敛速度。
Sep, 2022
该论文讨论了深度神经网络训练中的内部协变量漂移问题,并通过在模型架构内加入标准化方法及在每个训练 mini-batch 的操作中进行标准化,解决了此问题,在 Image Classification 上取得了优秀的表现。
Feb, 2015
提出了一个更简单、更符合生物学规律的通用归一化算法,可同时解决批归一化的两个主要限制:在线学习和循环学习,并提出了用不同统计矩阶数来进行归一化的 Lp 归一化方法,特别是 L1 归一化,其性能表现良好且计算速度快,更加符合生物学规律,因此非常适合 GPU 或硬件实现。
Oct, 2016
本文提出了一种称为 Batch Renormalization 的扩展方法,在训练深度学习模型时,在 minibatch 太小或不包含独立样本时,解决模型层输入依赖于 minibatch 所有实例和训练与推理之间存在的差异,同时保持初始化和训练效率等方面的优点。
Feb, 2017
本文提出了一种基于 Gersgorin 圆定理的递归网络理论分析方法,从而引入 Recurrent Highway Networks 的新型结构以提高深度递归神经网络的研究难度并展示其在语言建模上的高效性和有效性。
本文通过使用传统正则化技术 L2 规则化和缓慢规则化来提高 RNN 对于语言建模任务的性能,而这两种技术只需要对现有 RNN 架构进行最小修改,即可获得与复杂正则化技术或自定义单元结构相媲美或更好的性能表现,并且这些技术可以在现有的优化 LSTM 实现上无需进行任何修改。
Aug, 2017
本文探讨了神经网络优化中常见的批量标准化方法,并提出了四种改善方法,包括基于推理标准化统计的推理现有实例的方法、小批量大小下有效的 Ghost Batch Normalization 正则化方法、权重衰减正则化对 scaling 和 shifting 参数 gamma 和 beta 的影响、并结合批量标准化和分组标准化的方法解决小批量规模的问题。这些方法可以提高神经网络在六个数据集上的性能表现。
Jun, 2019
该研究介绍了一种简单的正则化技术,在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合,包括语言建模、语音识别、图像字幕生成和机器翻译等。
Sep, 2014