近在眼前，远在天边：神经语言模型如何利用上下文

ACLMay, 2018

近在眼前，远在天边：神经语言模型如何利用上下文

Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context

Urvashi Khandelwal, He He, Peng Qi, Dan Jurafsky

TL;DR本研究通过切片研究分析，探讨了神经语言模型如何利用其先前的语境。结果显示，模型能有效地利用大约 200 个标记的语境，但对远古语境的词序并不敏感，而是将其建模为一个粗糙的语义领域或主题，同时这项研究还为基于缓存的模型的最近的成功提供了启示。

Abstract

We know very little about how neural language models (LM) use prior linguistic context. In this paper, we investigate the role of context in an lstm lm, through ablation studies. Specifically, we analyze the incr

neural language models prior context lstm lm perplexity cache-based models

发现论文，激发创造

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

远程文本对哪些标记有益处？长上下文语言建模分析

研究论文探索了长文本语言模型中哪一种词汇能够更多地受益于长上下文，通过分析文本的概率变化，发现内容词汇和词汇的起始部分受益最大，上下文中的频繁模式也对预测产生显著影响，同时，模型的先验知识对预测尤为重要，尤其是对于罕见的词汇，语言模型在长上下文下变得更加自信，这种过度自信可能导致远程上下文信息中的词汇概率增加，希望该分析有助于更好地理解长文本语言建模并设计更可靠的长上下文模型。

Jun, 2024

更大范围的上下文语言建模

在这项研究中，我们提出了一种新的方法将语料库级别的语篇信息纳入语言模型中，称之为 “大背景语言模型”。我们采用基于长短时记忆单元 (LSTM) 的晚期融合方法，通过对 IMDB、BBC 和 Penn Tree Bank 三个语料库的评估，证明了所提出的模型显著改善了困惑度。通过分析训练的大背景语言模型，我们发现增加上下文句子数量最能使内容单词 (包括名词、形容词和动词) 受益。这表明大背景语言模型通过更好、更简单地捕捉文档的主题，改进了非条件语言模型。

Nov, 2015

大规模自然语言处理任务的上下文 LSTM（CLSTM）模型

本文介绍了 CLSTM 模型，该模型将上下文特征（如主题）纳入模型中，在两个语料库上的实验结果表明，使用单词和主题作为特征可以提高模型在 NLP 任务中的性能，并在问题回答、句子完成、释义生成和对话系统中的下一句预测等 NL 应用程序中发挥重要作用。

Feb, 2016

将单词置于上下文中：LSTM 语言模型和词汇歧义

本研究使用神经网络模型处理语言，探讨了 LSTM 语言模型如何处理英语中的词汇歧义，通过探究其隐藏的表示方式发现大量的词汇信息与上下文信息被表述，但上下文信息有待提高。

Jun, 2019

长短距离上下文神经网络语言模型

本文提出了一种新的多跨度架构，通过一种新的循环长短期上下文（LSRC）网络，显式地模拟本地（短期）和全局（长期）上下文，分别模拟短期和长期的上下文信息，用于语言模型任务。

Aug, 2017

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

大型语言模型是否能理解上下文？

理解上下文是理解人类语言的关键，本论文介绍了一个上下文理解基准，通过适应现有数据集来评估生成模型的能力，并发现预先训练的稠密模型在理解复杂上下文特征方面比优化调整模型困难。

Feb, 2024

迷失在中间：语言模型如何使用长上下文

我们分析了语言模型在多文档问答和键值检索两个任务中的性能，发现当相关信息出现在输入上下文的开头或结尾时，性能通常最高，而在长上下文中访问相关信息时性能显著下降。此外，随着输入上下文的增长，性能显著降低，即使是专门用于长上下文的模型也如此。我们的分析对语言模型如何利用输入上下文提供了更好的理解，并为未来的长上下文模型提供了新的评估协议。

Jul, 2023

低资源语言建模中上下文的重要性

研究了低资源语言模型预训练，当可用的句子少于 100,000 条时。在低资源情况下，统计 n-gram 语言模型优于最先进的神经模型，主要是因为前者专注于局部上下文。因此，引入了三种方法来提高神经模型在低资源环境下的性能，发现限制模型的自我注意力是最有效的方法，在英语、印地语和土耳其语等多种语言的下游任务中，NLI 和 POS 标记的准确性提高了高达 5%。

May, 2022