LLM 长文本语境失误的洞见：当转换器知道但不透露

Jun, 2024

LLM 长文本语境失误的洞见：当转换器知道但不透露

Insights into LLM Long-Context Failures: When Transformers Know but Don't Tell

Taiming Lu, Muhan Gao, Kuai Yu, Adam Byerly, Daniel Khashabi

TL;DR大型语言模型（LLM）存在位置偏差，难以利用长篇上下文中间或结尾的信息。我们的研究通过探测其隐藏表示来探究 LLMs 的长篇上下文推理能力。我们发现，虽然 LLMs 编码目标信息的位置，但在生成准确回答时往往未能充分利用这一特性。这揭示了信息检索和利用之间的不一致，形成了一种 “知道但不说” 的现象。我们进一步分析了提取时间与最终准确性之间的关系，从而揭示了 Transformer 模型的基本机制。

Abstract

large language models (LLMs) exhibit positional bias, struggling to utilize information from the middle or end of long contexts. Our study explores LLMs' →

large language models positional bias long-context reasoning information retrieval transformer models

发现论文，激发创造

Transformer 语言模型可以使用哪些上下文特征？

通过在 Transformer 语言模型上进行一系列实验，我们发现对于当前 Transformer 语言模型的低困惑度，长上下文至关重要，但上下文的详细句法和命题内容并不重要，且在中长程上下文中，包括重新排列句子中的单词和删除除名词以外的所有单词在内的多种极端破坏性上下文操作仅会移除不到 15％的可用信息。

Jun, 2021

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

提升模型的上下文理解能力与更长更好的语境

最近，随着大量的大型语言模型（LLMs）的出现，人工智能的实施进入了一个新时代。尽管这些模型本身具有能力和结构，但对于 LLMs 来说，能够对更长、更复杂的上下文具有增强理解能力而又保持相对较小的规模的需求不断增长。本文在对 LLMs 内部信息传递的本质进行深入研究的基础上，提出了一种名为 Attention Transition 的新技术。该技术使模型能够在最小的额外训练或对生成流畅性的影响下，实现更长、更好的上下文理解。我们的实验在 XSum 上进行，与原始生成结果相比取得了显著改进。

Jul, 2023

通过缩放单一维度来减轻大型语言模型的位置偏见

本文研究了大型语言模型中的位置偏见问题，发现注意力权重和因果性注意掩码是位置偏见的微观表现，提出了通过调整位置隐状态来减轻位置偏见的方法，并通过在多个任务上进行实验验证了该方法的有效性和普适性。

Jun, 2024

位于中间：校准位置注意偏差以改进长上下文利用

长文本中，大语言模型存在失效过中间信息的问题，我们通过研究发现这一现象与其内在的注意力偏差有关，而通过中间定位机制可以解决这一问题，并在检索增强生成任务中表现出更好的性能。

Jun, 2024

充分利用上下文的 LLM

通过信息密集型（IN2）训练，我们提出了一种完全数据驱动的解决方案来克服长上下文的缺失问题，该方法能够有效地利用长上下文中的信息，并且在现实世界的长上下文任务中显著提高性能。

Apr, 2024

迷失在中间：语言模型如何使用长上下文

我们分析了语言模型在多文档问答和键值检索两个任务中的性能，发现当相关信息出现在输入上下文的开头或结尾时，性能通常最高，而在长上下文中访问相关信息时性能显著下降。此外，随着输入上下文的增长，性能显著降低，即使是专门用于长上下文的模型也如此。我们的分析对语言模型如何利用输入上下文提供了更好的理解，并为未来的长上下文模型提供了新的评估协议。

Jul, 2023

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

为什么更大的语言模型在上下文中学习方式不同？

大型语言模型（LLM）通过上下文学习（ICL）的关键能力成为 AI 的强大工具，本研究探讨了不同规模的模型在 ILC 行为上的不同性质，并在两个设定下分析了变压器的注意力机制与 ICL 的关系。

May, 2024

驻足于起始处：语言模型如何嵌入长篇文档以进行稠密检索

这项研究调查了 Transformer-based 模型在文本表征学习中的位置偏差存在情况，特别是在网络文档检索的背景下。我们基于先前研究的基础上，拓展了关于因果性语言模型输入序列中信息丢失的问题，将其应用于表征学习领域。我们在编码器 - 解码器模型的各个训练阶段，包括语言模型预训练、对比度预训练和对比度微调中，研究了位置偏差。通过对 MS-MARCO 文档集的实验发现，在对比度预训练之后，该模型已经生成了能够更好地捕捉输入早期内容的嵌入向量，而微调进一步加剧了这种效果。

Apr, 2024