本文通过使用传统正则化技术 L2 规则化和缓慢规则化来提高 RNN 对于语言建模任务的性能,而这两种技术只需要对现有 RNN 架构进行最小修改,即可获得与复杂正则化技术或自定义单元结构相媲美或更好的性能表现,并且这些技术可以在现有的优化 LSTM 实现上无需进行任何修改。
Aug, 2017
该研究介绍了一种简单的正则化技术,在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合,包括语言建模、语音识别、图像字幕生成和机器翻译等。
Sep, 2014
介绍了一种使用 DropConnect 和 NT-ASGD 等方法进行 LSTM 正则化优化的模型,在 Penn Treebank 和 WikiText-2 数据集上取得了最佳的困惑度表现,并探索了神经缓存对模型性能的影响。
本文提出了一种名为 Noisin 的新方法,通过注入随机噪声到 RNN 的隐藏状态对其进行正则化,有效避免过拟合,实验证明 Noisin 在语言建模任务上相较于 dropout 有 12.2% 的性能提升。
May, 2018
通过对比具有不同模型结构的 LMs 在少量和大量数据上的表现,分析 RNNs 和 IRLMs 的性能优劣,展示 IRLMs 的一些优点与缺陷,并提出了一种基于 long-context units 的 LM 模型,通过该模型在 Microsoft Research Sentence Completion 数据上最高可以达到 60.8% 的性能。
Jan, 2013
研究透过向隐含状态注入噪音训练的递归神经网络,已证实该方法可提升其稳定性及鲁棒性。
Feb, 2021
本文通过对门控单元激活值的 L1 正则化来解决基于注意力的 RNN 模型过拟合的问题,同时提高了模型的可解释性。实验证明,这种方法在多项任务中均有效,包含情感分析、释义识别和问答等。
Jun, 2015
通过使用一种被称为状态规范化的机制来处理以前递归神经网络(RNNs)的不足,从而提高 RNNs 的状态转移动态分析和解释性,并将其应用于自动机抽取,自然语言处理和计算机视觉中。
Jan, 2019
本文提出了一种名为 zoneout 的新型 RNN 正则化方法,其通过异步化一部分隐藏单元来提高模型的泛化能力,并在字符和词级语言建模的任务中获得了竞争性的结果。
Jun, 2016
通过添加一个新的损失项,将神经网络激活函数的方差稳定下来,使其围绕几个不同的模式分布,并将这种正则化项与 batchnorm 方法联系起来,提高了卷积神经网络和全连接网络的准确性。
Nov, 2018