基于 LSTM 的 OCR 隐式语言模型
本研究使用神经网络模型处理语言,探讨了 LSTM 语言模型如何处理英语中的词汇歧义,通过探究其隐藏的表示方式发现大量的词汇信息与上下文信息被表述,但上下文信息有待提高。
Jun, 2019
本文介绍了 CLSTM 模型,该模型将上下文特征(如主题)纳入模型中,在两个语料库上的实验结果表明,使用单词和主题作为特征可以提高模型在 NLP 任务中的性能,并在问题回答、句子完成、释义生成和对话系统中的下一句预测等 NL 应用程序中发挥重要作用。
Feb, 2016
本文介绍了长短时记忆网络的互相门机制,以实现更好地建模自然语言处理中上下文之间的交互, 并通过实验在多个数据集上证明了其在语言建模上较传统模型具有更好的泛化能力和性能表现。
Sep, 2019
本研究描述了一种仅依赖字符级输入的简单神经语言模型,该模型利用卷积神经网络和字符级公路网络作为输入,并将结果给予一种长短时记忆递归神经网络语言模型作为输出,该模型可以用较少的参数占据现有最先进的地位。此外,该模型表现出色的证明了许多语言所需的字符输入已经足够进行语言建模,且可以从字符组成的部分编码的单词表示中得到语义和字形信息。
Aug, 2015
通过使用 RNN 模型进行 $n$-gram 语言模型平滑来研究其有效的记忆深度,实验结果表明,在保持句子独立性假设的前提下,使用 dropout 技术的 LSTM cell 在编码 $n$-gram 状态方面的表现最佳,且在 $n=9$ 时,LSTM $n$-gram 与 LSTM LM 表现相当,同时在 $n=13$ 时略优于其,该方法可以提高模型的性能,特别适用于模拟短格式文本如语音搜索 / 查询语言模型。
Mar, 2017
本文介绍了一种利用长短时记忆模型和隐马尔科夫模型相结合的方法来提高循环神经网络的可解释性的途径,并在文本数据和医疗时间序列数据上测试了该算法,发现 LSTM 和 HMM 学习文本特征的信息互为补充。
Nov, 2016
本文通过实验证明,64 层深 (Deep) 的 transformer 模型,通过加入中间网络层和序列位置的辅助损失 (auxiliary losses),能够在文本压缩数据 (text8) 和维基百科压缩数据 (enwik8) 数据集上超越截断反向传播 (Truncated Backpropagation) 的 RNN 变体,实现 1.13 和 1.06 的最小比特位 (bit per character)。
Aug, 2018
使用长期短期记忆(LSTM)、字符信息和单词嵌入等技术,设计了一种基于字符的语言模型,有效提高了对单词的建模能力,优于传统基于单词的模型。
Apr, 2017
通过引入一种新方法,结合大型语言模型(LLMs)来进行上下文化的语音识别模型,我们证明通过添加适配器的少量可训练参数,可以在保持相同的文本输入功能的同时,实现预训练 LLM 的上下文化语音识别能力并显著提高性能。
Sep, 2023