使用密集连接循环神经网络改善语言模型
本文提出了一种新的多层 RNN 模型 —— 密集连接的双向长短期记忆网络 (DC-Bi-LSTM),并在五个句子分类基准数据集上进行了评估。结果显示,相比同等或更少的参数的传统双向 LSTM,深度为 20 的 DC-Bi-LSTM 模型可以成功训练,并获得了显著的改进。此外,与最先进方法相比,我们的模型表现具有很好的潜力。
Feb, 2018
本研究提出了一种称为 DilatedRNN 的简单且有效的循环神经网络连接结构,它可以同时解决 RNN 在处理长序列时遇到的复杂依赖、梯度消失和爆炸的问题,还能够提高训练效率并匹配最先进技术,并且引入了一种适用于具有长跳跃连接的 RNN 的内存容量度量,证明了 DilatedRNN 相对于其他循环神经网络结构的优点。
Oct, 2017
本文介绍了一种通过在 RNN 中的输入和输出嵌入层共享参数来压缩模型参数的方法,实验证明该方法可大幅减小模型参数的大小,但仍能在自然语言处理中保持模型的准确性和性能表现。
Nov, 2017
本文中提出了一种使用密集连接网络自动提取字符级特征的新方法,该方法不需要任何语言或任务特定的假设,在三个序列标注任务 - 槽填充、词性标注和命名实体识别 - 上表现出 robustness 和效力,以 96.62 的 F1-score 和 97.73%的准确度在槽填充和词性标注上获得了最先进的性能,同时在 NER 上可比的表现达到了 91.13 的 F1 得分
Jun, 2018
本文提出了一种名为 DenseNMT 的密集连接的神经机器翻译 (NMT) 结构,它使用了密集连接和密集注意力结构来训练 NMT 模型并改善注意力质量。实验表明,DenseNMT 结构更具竞争力和效率。
Jun, 2018
本文提出了一种基于 Gersgorin 圆定理的递归网络理论分析方法,从而引入 Recurrent Highway Networks 的新型结构以提高深度递归神经网络的研究难度并展示其在语言建模上的高效性和有效性。
Jul, 2016
本文介绍了我们在使用 DenseNets 进行声学建模(AM)自动语音识别方面的最新研究,实验结果表明,DenseNet 能够显著地优于其他神经网络模型,如 DNNs、CNNs、VGGs, 甚至在使用只有一半训练数据的情况下表现也很好。
Aug, 2018
介绍了一种使用 DropConnect 和 NT-ASGD 等方法进行 LSTM 正则化优化的模型,在 Penn Treebank 和 WikiText-2 数据集上取得了最佳的困惑度表现,并探索了神经缓存对模型性能的影响。
Aug, 2017
本文提出跨层参数共享方法,将单层循环堆叠的神经机器翻译模型与完整的六层模型的翻译质量进行比较,结果表明使用伪对称语料库进行反向翻译可以显著提高翻译质量。
Jul, 2018