长短距离上下文神经网络语言模型

EMNLPAug, 2017

长短距离上下文神经网络语言模型

Long-Short Range Context Neural Networks for Language Modeling

Youssef Oualil, Mittul Singh, Clayton Greenberg, Dietrich Klakow

TL;DR本文提出了一种新的多跨度架构，通过一种新的循环长短期上下文（LSRC）网络，显式地模拟本地（短期）和全局（长期）上下文，分别模拟短期和长期的上下文信息，用于语言模型任务。

Abstract

The goal of language modeling techniques is to capture the statistical and structural properties of natural languages from training corpora. This task typically involves the learning of short range dependencies,

language modeling short range dependencies long range dependencies recurrent network lstm

发现论文，激发创造

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

利用长短时记忆进行信息检索的语义建模

我们使用长短时记忆（LSTM）来捕捉上下文依赖关系，以解决信息检索中的词汇不匹配和长期上下文建模问题，从而显着优于现有的网络文档检索方法。

Dec, 2014

更大范围的上下文语言建模

在这项研究中，我们提出了一种新的方法将语料库级别的语篇信息纳入语言模型中，称之为 “大背景语言模型”。我们采用基于长短时记忆单元 (LSTM) 的晚期融合方法，通过对 IMDB、BBC 和 Penn Tree Bank 三个语料库的评估，证明了所提出的模型显著改善了困惑度。通过分析训练的大背景语言模型，我们发现增加上下文句子数量最能使内容单词 (包括名词、形容词和动词) 受益。这表明大背景语言模型通过更好、更简单地捕捉文档的主题，改进了非条件语言模型。

Nov, 2015

RNN 架构需要多少复杂度才能学习依赖句法语义？

本文介绍了一个新的神经网络架构 Decay RNN，它可以通过模拟神经元的抑制和兴奋连接，更好地学习长期依赖关系，相较于 LSTM 在语言任务上也表现十分出色，这为 RNN 成功建模语言现象所需的归纳偏差提供了一些线索。

May, 2020

近在眼前，远在天边：神经语言模型如何利用上下文

本研究通过切片研究分析，探讨了神经语言模型如何利用其先前的语境。结果显示，模型能有效地利用大约 200 个标记的语境，但对远古语境的词序并不敏感，而是将其建模为一个粗糙的语义领域或主题，同时这项研究还为基于缓存的模型的最近的成功提供了启示。

May, 2018

自顶向下的树形长短期记忆网络

本文提出了一种名为 Tree Long Short-Term Memory (TreeLSTM) 的神经网络模型，它基于 LSTM 并专门用于预测树结构，同时通过明确表示左右句法相关性，提高了建模能力。在 MSR 句子完成挑战和依存分析重排序方面的应用，都达到了当前最先进技术水平的效果。

Oct, 2015

使用长短期记忆网络的深度句子嵌入：分析和在信息检索中的应用

本文提出了一种基于循环神经网络和长短时记忆单元的句子嵌入模型，该模型能够自动侦测句子中关键词和主题，从而进行网络文档检索等艰难的语言处理任务，并在性能上显著优于现有的先进方法。

Feb, 2015

基于上下文信息的深度神经网络语句级分类方法

提出了一种新的句子分类方法 Context-LSTM-CNN，利用了与被分类句子相邻的句子形成的上下文和 LSTM 处理被分类句子的远距离依赖关系以及使用了基于 CNN 的短跨度特征。该方法在两个不同的数据集上始终优于以前的方法。

Aug, 2018

一种用于软件代码的深度语言模型

提出了一种基于深度学习和 LSTM（长短时记忆）架构的软件代码语言模型，能够有效地学习软件代码中的长时相关性，实验结果显示其有效性。这项工作为构建 DeepSoft，一种端到端，通用的深度学习框架，促进了软件及其开发过程的建模。

Aug, 2016