更大范围的上下文语言建模

Nov, 2015

Larger-Context Language Modelling

Tian Wang, Kyunghyun Cho

TL;DR在这项研究中，我们提出了一种新的方法将语料库级别的语篇信息纳入语言模型中，称之为 “大背景语言模型”。我们采用基于长短时记忆单元 (LSTM) 的晚期融合方法，通过对 IMDB、BBC 和 Penn Tree Bank 三个语料库的评估，证明了所提出的模型显著改善了困惑度。通过分析训练的大背景语言模型，我们发现增加上下文句子数量最能使内容单词 (包括名词、形容词和动词) 受益。这表明大背景语言模型通过更好、更简单地捕捉文档的主题，改进了非条件语言模型。

Abstract

In this work, we propose a novel method to incorporate corpus-level discourse information into language modelling. We call this larger-context language model. We introduce a late fusion approach to a recurrent language model based on long short-term memory units (→

discourse information language modelling lstm context sentences content words

发现论文，激发创造

大规模自然语言处理任务的上下文 LSTM（CLSTM）模型

本文介绍了 CLSTM 模型，该模型将上下文特征（如主题）纳入模型中，在两个语料库上的实验结果表明，使用单词和主题作为特征可以提高模型在 NLP 任务中的性能，并在问题回答、句子完成、释义生成和对话系统中的下一句预测等 NL 应用程序中发挥重要作用。

Feb, 2016

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

利用大型语言模型进行端到端语音识别的语境化

通过引入一种新方法，结合大型语言模型（LLMs）来进行上下文化的语音识别模型，我们证明通过添加适配器的少量可训练参数，可以在保持相同的文本输入功能的同时，实现预训练 LLM 的上下文化语音识别能力并显著提高性能。

Sep, 2023

基于上下文信息的深度神经网络语句级分类方法

提出了一种新的句子分类方法 Context-LSTM-CNN，利用了与被分类句子相邻的句子形成的上下文和 LSTM 处理被分类句子的远距离依赖关系以及使用了基于 CNN 的短跨度特征。该方法在两个不同的数据集上始终优于以前的方法。

Aug, 2018

文档上下文语言模型

文本文件通常按多个层次结构化：单个单词由语法相关联，但更大的文本单元由话语结构相关联。本研究提出并实证评估了一组多级递归神经网络语言模型，称为文档上下文语言模型（DCLM），它们在句子内外都融入上下文信息。与基于单词级的递归神经网络语言模型相比，DCLM 模型预测概率略有提高，文档连贯性评估显著提高。

Nov, 2015

近在眼前，远在天边：神经语言模型如何利用上下文

本研究通过切片研究分析，探讨了神经语言模型如何利用其先前的语境。结果显示，模型能有效地利用大约 200 个标记的语境，但对远古语境的词序并不敏感，而是将其建模为一个粗糙的语义领域或主题，同时这项研究还为基于缓存的模型的最近的成功提供了启示。

May, 2018

提升模型的上下文理解能力与更长更好的语境

最近，随着大量的大型语言模型（LLMs）的出现，人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构，但对于 LLMs 来说，能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上，提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下，实现更长、更好的上下文理解。我们的实验在 XSum 上进行，与原始生成结果相比取得了显著改进。

Jul, 2023

长短距离上下文神经网络语言模型

本文提出了一种新的多跨度架构，通过一种新的循环长短期上下文（LSRC）网络，显式地模拟本地（短期）和全局（长期）上下文，分别模拟短期和长期的上下文信息，用于语言模型任务。

Aug, 2017

利用长短时记忆进行信息检索的语义建模

我们使用长短时记忆（LSTM）来捕捉上下文依赖关系，以解决信息检索中的词汇不匹配和长期上下文建模问题，从而显着优于现有的网络文档检索方法。

Dec, 2014

通过语义压缩扩展大型语言模型的上下文窗口

提出了一种新颖的语义压缩方法，使得基于 Transformer 的大型语言模型（LLM）能够适用于长度为原先的 6-8 倍的文本，而无需进行显著的计算开销或需要微调。该方法通过信息论中的源编码概念和使用预训练模型，减少长输入的语义冗余后再传递给 LLM 进行下游任务。实验结果表明，该方法有效地扩展了 LLM 在包括问答、摘要、少样本学习和信息检索等任务中的上下文窗口，并且在减少相关计算开销的同时能够保持生成文本的流畅性。

Dec, 2023