长程语言模型是否实际上使用了长程上下文？

EMNLPSep, 2021

长程语言模型是否实际上使用了长程上下文？

Do Long-Range Language Models Actually Use Long-Range Context?

Simeng Sun, Kalpesh Krishna, Andrew Mattarella-Micke, Mohit Iyyer

TL;DR该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Abstract

language models are generally trained on short, truncated input sequences, which limits their ability to use discourse-level information present in long-range context to improve their predictions. Recent efforts

language models transformer long-range context pg-19 prediction

发现论文，激发创造

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

Transformer 语言模型可以使用哪些上下文特征？

通过在 Transformer 语言模型上进行一系列实验，我们发现对于当前 Transformer 语言模型的低困惑度，长上下文至关重要，但上下文的详细句法和命题内容并不重要，且在中长程上下文中，包括重新排列句子中的单词和删除除名词以外的所有单词在内的多种极端破坏性上下文操作仅会移除不到 15％的可用信息。

Jun, 2021

迷失在中间：语言模型如何使用长上下文

我们分析了语言模型在多文档问答和键值检索两个任务中的性能，发现当相关信息出现在输入上下文的开头或结尾时，性能通常最高，而在长上下文中访问相关信息时性能显著下降。此外，随着输入上下文的增长，性能显著降低，即使是专门用于长上下文的模型也如此。我们的分析对语言模型如何利用输入上下文提供了更好的理解，并为未来的长上下文模型提供了新的评估协议。

Jul, 2023

远程文本对哪些标记有益处？长上下文语言建模分析

研究论文探索了长文本语言模型中哪一种词汇能够更多地受益于长上下文，通过分析文本的概率变化，发现内容词汇和词汇的起始部分受益最大，上下文中的频繁模式也对预测产生显著影响，同时，模型的先验知识对预测尤为重要，尤其是对于罕见的词汇，语言模型在长上下文下变得更加自信，这种过度自信可能导致远程上下文信息中的词汇概率增加，希望该分析有助于更好地理解长文本语言建模并设计更可靠的长上下文模型。

Jun, 2024

长短距离上下文神经网络语言模型

本文提出了一种新的多跨度架构，通过一种新的循环长短期上下文（LSRC）网络，显式地模拟本地（短期）和全局（长期）上下文，分别模拟短期和长期的上下文信息，用于语言模型任务。

Aug, 2017

长程变压器的自然语言处理任务效率

比较研究了多种 Transformer 模型的性能，发现长序列的改进版本在内容选择和查询引导解码方面有优势，但在处理远距离的信息和近似误差上有欠缺的地方。

Feb, 2022

近在眼前，远在天边：神经语言模型如何利用上下文

本研究通过切片研究分析，探讨了神经语言模型如何利用其先前的语境。结果显示，模型能有效地利用大约 200 个标记的语境，但对远古语境的词序并不敏感，而是将其建模为一个粗糙的语义领域或主题，同时这项研究还为基于缓存的模型的最近的成功提供了启示。

May, 2018

在长上下文大语言模型中推进 Transformer 架构的综合调查

该研究论文主要针对基于 Transformer 的大型语言模型的长上下文能力进行了模型架构的改进，并提供了与之相关的评估需求以及未来研究的挑战和潜在方向。

Nov, 2023

语音识别的长跨度语言建模

本文探索多句子语境下神经语言模型的应用，并介绍结合了注意力机制和 LSTM 的新型模型在语音识别和长跨度语言模型方面的实验结果。

Nov, 2019

超越极限：大型语言模型中扩展上下文长度的技术综述

本文调查了扩展序列长度的技术和方法，包括架构修改和注意机制的改变等多种方法，并讨论了当前方法的局限性和未来研究方向建议，强调了序列长度对大型语言模型进一步发展的重要性。

Feb, 2024