Transformer 语言模型可以使用哪些上下文特征？

ACLJun, 2021

Transformer 语言模型可以使用哪些上下文特征？

What Context Features Can Transformer Language Models Use?

Joe O'Connor, Jacob Andreas

TL;DR通过在 Transformer 语言模型上进行一系列实验，我们发现对于当前 Transformer 语言模型的低困惑度，长上下文至关重要，但上下文的详细句法和命题内容并不重要，且在中长程上下文中，包括重新排列句子中的单词和删除除名词以外的所有单词在内的多种极端破坏性上下文操作仅会移除不到 15％的可用信息。

Abstract

transformer-based language models benefit from conditioning on contexts of hundreds to thousands of previous tokens. What aspects of these contexts contribute to accurate model prediction? We describe a series of experiments that measure →

transformer-based language models usable information long-range contexts lexical information structural information

发现论文，激发创造

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

LLM 长文本语境失误的洞见：当转换器知道但不透露

大型语言模型（LLM）存在位置偏差，难以利用长篇上下文中间或结尾的信息。我们的研究通过探测其隐藏表示来探究 LLMs 的长篇上下文推理能力。我们发现，虽然 LLMs 编码目标信息的位置，但在生成准确回答时往往未能充分利用这一特性。这揭示了信息检索和利用之间的不一致，形成了一种 “知道但不说” 的现象。我们进一步分析了提取时间与最终准确性之间的关系，从而揭示了 Transformer 模型的基本机制。

Jun, 2024

迷失在中间：语言模型如何使用长上下文

我们分析了语言模型在多文档问答和键值检索两个任务中的性能，发现当相关信息出现在输入上下文的开头或结尾时，性能通常最高，而在长上下文中访问相关信息时性能显著下降。此外，随着输入上下文的增长，性能显著降低，即使是专门用于长上下文的模型也如此。我们的分析对语言模型如何利用输入上下文提供了更好的理解，并为未来的长上下文模型提供了新的评估协议。

Jul, 2023

近在眼前，远在天边：神经语言模型如何利用上下文

本研究通过切片研究分析，探讨了神经语言模型如何利用其先前的语境。结果显示，模型能有效地利用大约 200 个标记的语境，但对远古语境的词序并不敏感，而是将其建模为一个粗糙的语义领域或主题，同时这项研究还为基于缓存的模型的最近的成功提供了启示。

May, 2018

上下文表示的语言知识和可迁移性

该论文研究了利用大规模神经语言模型生成的上下文词表示对于自然语言处理任务的有效性及其可迁移性。结果表明，虽然这些表示在许多任务中表现出色，但对于需要细粒度语言知识的任务（如连词识别）而言，它们还不能胜任。此外，作者还比较了不同预训练和监督预训练方法对于任务训练的影响。

Mar, 2019

上下文对语言模型事实预测的影响

本论文研究了在大规模无监督文本语料库上预训练的语言模型，结合信息检索系统以纯无监督方式来增强预训练语言模型，并成功提高了其零样本缺失式问答系统的性能，尤其通过使用不同的分隔符处理查询和上下文，让 BERT 能够更好的判断是否匹配上下文从而增加准确性和鲁棒性。

May, 2020

远程文本对哪些标记有益处？长上下文语言建模分析

研究论文探索了长文本语言模型中哪一种词汇能够更多地受益于长上下文，通过分析文本的概率变化，发现内容词汇和词汇的起始部分受益最大，上下文中的频繁模式也对预测产生显著影响，同时，模型的先验知识对预测尤为重要，尤其是对于罕见的词汇，语言模型在长上下文下变得更加自信，这种过度自信可能导致远程上下文信息中的词汇概率增加，希望该分析有助于更好地理解长文本语言建模并设计更可靠的长上下文模型。

Jun, 2024

解释 Transformer 如何利用上下文来建立预测

本文使用 Transformer 的最新可解释性进展提出了分析语言生成模型的过程，并使用对比实例比较了我们的方法与渐变和扰动基线的解释的一致性，结果表明我们的方法具有更好的表现。最后，我们将该方法应用于神经机器翻译模型，并展示了生成人类相似的源 - 目标对齐结果的能力。

May, 2023

使用文档级上下文来改进 Transformer 翻译模型

该研究通过在 Transformer 模型中引入上下文编码器，将文档级别的上下文信息融入原有的编码器和解码器中提高翻译质量，同时采用双倍训练方法，充分利用句子级别平行语料库和有限的文档级别平行语料库来训练模型，并通过 NIST 中英数据集和 IWSLT 法英数据集的实验表明，该方法显著提升了 Transformer 模型的性能表现。

Oct, 2018

利用跨句语境进行 ASR 解码

研究通过束搜索集成具有长期上下文的变压器语言模型进行跨话语语音模型的解码，并与 n-best 重排序的结果进行比较。结果表明，束搜索允许更好地利用跨话语语境。

Jun, 2023