LSTM 语言模型的正则化和优化

Aug, 2017

Regularizing and Optimizing LSTM Language Models

Stephen Merity, Nitish Shirish Keskar, Richard Socher

TL;DR介绍了一种使用 DropConnect 和 NT-ASGD 等方法进行 LSTM 正则化优化的模型，在 Penn Treebank 和 WikiText-2 数据集上取得了最佳的困惑度表现，并探索了神经缓存对模型性能的影响。

Abstract

recurrent neural networks (RNNs), such as long short-term memory networks (LSTMs), serve as a fundamental building block for many sequence learning tasks, including machine translation, →

recurrent neural networks long short-term memory networks language modeling regularization strategies neural cache

发现论文，激发创造

循环神经网络正则化

该研究介绍了一种简单的正则化技术，在循环神经网络 (RNNs) 与长短期记忆 (LSTM) 单元上应用 Dropout 可以减少不同任务中的过度拟合，包括语言建模、语音识别、图像字幕生成和机器翻译等。

Sep, 2014

重新审视激活正则化对于语言循环神经网络的影响

本文通过使用传统正则化技术 L2 规则化和缓慢规则化来提高 RNN 对于语言建模任务的性能，而这两种技术只需要对现有 RNN 架构进行最小修改，即可获得与复杂正则化技术或自定义单元结构相媲美或更好的性能表现，并且这些技术可以在现有的优化 LSTM 实现上无需进行任何修改。

Aug, 2017

神经语言模型的正则化和非线性：何时需要？

通过对比具有不同模型结构的 LMs 在少量和大量数据上的表现，分析 RNNs 和 IRLMs 的性能优劣，展示 IRLMs 的一些优点与缺陷，并提出了一种基于 long-context units 的 LM 模型，通过该模型在 Microsoft Research Sentence Completion 数据上最高可以达到 60.8% 的性能。

Jan, 2013

使用循环神经网络估计 N 元语言模型

通过使用 RNN 模型进行 $n$-gram 语言模型平滑来研究其有效的记忆深度，实验结果表明，在保持句子独立性假设的前提下，使用 dropout 技术的 LSTM cell 在编码 $n$-gram 状态方面的表现最佳，且在 $n=9$ 时，LSTM $n$-gram 与 LSTM LM 表现相当，同时在 $n=13$ 时略优于其，该方法可以提高模型的性能，特别适用于模拟短格式文本如语音搜索 / 查询语言模型。

Mar, 2017

通过稳定激活函数来规范化循环神经网络

通过对 Recurrent Neural Networks 中隐藏状态范数的平方距离进行惩罚，我们稳定了激活值，这是一种有效的正则化方法，提高了字符级语言建模和音素识别性能，超越了加权噪声和 dropout 的方法

Nov, 2015

Mogrifier LSTM

本文介绍了长短时记忆网络的互相门机制，以实现更好地建模自然语言处理中上下文之间的交互，并通过实验在多个数据集上证明了其在语言建模上较传统模型具有更好的泛化能力和性能表现。

Sep, 2019

神经语言模型的逐层正则化丢弃

我们提出了一种特别为基于 Transformer 的语言模型设计的新型 Layer-wise Regularized Dropout (LR-Drop) 方法，通过一些研究使用一致性训练在输出层对 dropout 进行规范化，每个 Transformer 层通过一致性训练策略进行层内规范化，通过在多个数据集上进行大量实验证明，LR-Drop 可以达到卓越的性能，包括最先进的结果。

Feb, 2024

神经语言模型评估的现状

通过使用自动超参数调整，重新评估了几种流行的神经网络架构和正则化方法，得出了标准 LSTM 架构在合适的正则化情况下优于更新模型的惊人结论，并在 Penn Treebank 和 Wikitext-2 语料库上建立了新的最先进技术水平，以及在 Hutter Prize 数据集上建立了强大的基准线。

Jul, 2017

生长与精简的迷你，快速和准确的 LSTM

本文提出一种 H-LSTM 模型，利用增长和修剪（GP）的方式通过梯度增长和基于大小的修剪来迭代调整隐藏层，从而使得模型在图像字幕和语音识别等应用中的表现更快、更精确、更紧凑。

May, 2018

无记忆丢失的循环失活

本文提出一种新的循环神经网络正则化方法，通过在 extit {循环} 链接中直接删除神经元来实现，并且不会丢失长期记忆，实验证明，该方法即使与传统的前馈 dropout 相结合，也能在自然语言处理基准测试中取得一致的改进。

Mar, 2016