Mogrifier LSTM
在这项研究中,我们提出了一种新的方法将语料库级别的语篇信息纳入语言模型中,称之为 “大背景语言模型”。我们采用基于长短时记忆单元 (LSTM) 的晚期融合方法,通过对 IMDB、BBC 和 Penn Tree Bank 三个语料库的评估,证明了所提出的模型显著改善了困惑度。通过分析训练的大背景语言模型,我们发现增加上下文句子数量最能使内容单词 (包括名词、形容词和动词) 受益。这表明大背景语言模型通过更好、更简单地捕捉文档的主题,改进了非条件语言模型。
Nov, 2015
我们修改并扩展 LSTM 的门控机制和记忆结构,得到了 xLSTM 模型,该模型在性能和规模上与最先进的 Transformer 模型和状态空间模型相比表现出色。
May, 2024
通过使用 RNN 模型进行 $n$-gram 语言模型平滑来研究其有效的记忆深度,实验结果表明,在保持句子独立性假设的前提下,使用 dropout 技术的 LSTM cell 在编码 $n$-gram 状态方面的表现最佳,且在 $n=9$ 时,LSTM $n$-gram 与 LSTM LM 表现相当,同时在 $n=13$ 时略优于其,该方法可以提高模型的性能,特别适用于模拟短格式文本如语音搜索 / 查询语言模型。
Mar, 2017
本文研究了递归神经网络在大规模语言建模中的最新进展和应用,对语料库和词汇量的大小和语言的复杂性和长期结构等问题进行了探讨,并在 One Billion Word Benchmark 上进行了详尽的研究,最佳单一模型将习惯度从 51.3 降低到 30.0,而模型集成则创下了 41.0 到 23.7 的新纪录,在总结中,研究结果可供自然语言处理和机器学习界进一步研究和提高。
Feb, 2016
该研究考察了语言模型在处理文本时是否能够检索先前出现的确切单词,并发现 transformers 模型可以从第一次出现的名词清单中提取词语的身份和排序,而 LSTM 模型则更加侧重于先前单词的语义要点,以及其与列表中其他单词的关系。
Oct, 2022
本研究提出一种基于卷积神经网络的有限环境文本处理方法,采用新型简化门控机制,具有并行优势和长期学习效应,相比循环神经网络可获得更高的性能和更短的处理时间。在大规模文本任务中取得了领先水平,是非循环方法首次能够与强循环模型竞争。
Dec, 2016
提出一种普遍的贝叶斯学习框架,利用三种方法模拟 LSTM-RNN 和 Transformer LMs 的模型参数、神经激活选择和隐藏输出表示的不确定性,使用神经结构搜索自动选择优化网络内部组件,并使用有效的推断方法来降低计算成本,并在 AMI 会议转录和 LRS2 超叠话音频道的语音识别任务中实验验证,相对于基线 LSTM-RNN 和 Transformer LMs,在困惑度和字错误率方面均取得了一致的性能提升。
Aug, 2022