本研究描述了一种仅依赖字符级输入的简单神经语言模型,该模型利用卷积神经网络和字符级公路网络作为输入,并将结果给予一种长短时记忆递归神经网络语言模型作为输出,该模型可以用较少的参数占据现有最先进的地位。此外,该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模,且可以从字符组成的部分编码的单词表示中得到语义和字形信息。
Aug, 2015
本文介绍了长短时记忆网络的互相门机制,以实现更好地建模自然语言处理中上下文之间的交互, 并通过实验在多个数据集上证明了其在语言建模上较传统模型具有更好的泛化能力和性能表现。
Sep, 2019
使用长期短期记忆(LSTM)、字符信息和单词嵌入等技术,设计了一种基于字符的语言模型,有效提高了对单词的建模能力,优于传统基于单词的模型。
Apr, 2017
我们通过提出分层 RNN 体系结构,提高了基于字符级语言模型的溢出词建模的性能。在 One Billion Word Benchmark 上,我们的 CLM 模型比 Kneser-Ney 5 元语言模型表现更好,同时参数却只有 2%。我们在 WSJ 语料库上展示了对话识别示例,并将传统的 RNN CLMs 替换为所提出的模型,即使参数数量减少了 30%,精度也有所提高。
Sep, 2016
本文提出了使用深度门扩展长短期记忆神经网络模型的方法,借助门控函数来控制较高和较低层次中的循环单元线性相关性,实现了机器翻译和语言建模性能的提高。
本文提出了两种替代性改进的循环神经网络模型,一种是以前一个单词表示为条件的字符级表示,另一种是利用字符历史来调整输出概率,该改进使得处理多语言实际数据更为有效。
Nov, 2015
本研究提出一种基于卷积神经网络的有限环境文本处理方法,采用新型简化门控机制,具有并行优势和长期学习效应,相比循环神经网络可获得更高的性能和更短的处理时间。在大规模文本任务中取得了领先水平,是非循环方法首次能够与强循环模型竞争。
Dec, 2016
本文提出了一种简化的 Gated Recurrent Units 架构,用于语音识别。通过去除重置门和引入 ReLU 激活函数,我们的实现在训练时间上提高了 30%以上,并在不同任务、输入特征和噪声条件下获得了相对于标准 GRU 持续改善的识别性能。
Sep, 2017
使用字符级语言模型作为可解释的测试平台,本研究分析了 LSTM 的表示、预测和错误类型,并揭示了其提高性能的长程结构依赖性的来源。
Jun, 2015
本文通过对门控单元激活值的 L1 正则化来解决基于注意力的 RNN 模型过拟合的问题,同时提高了模型的可解释性。实验证明,这种方法在多项任务中均有效,包含情感分析、释义识别和问答等。