迷失在中间：语言模型如何使用长上下文

Jul, 2023

迷失在中间：语言模型如何使用长上下文

Lost in the Middle: How Language Models Use Long Contexts

Nelson F. Liu, Kevin Lin, John Hewitt, Ashwin Paranjape, Michele Bevilacqua...

TL;DR我们分析了语言模型在多文档问答和键值检索两个任务中的性能，发现当相关信息出现在输入上下文的开头或结尾时，性能通常最高，而在长上下文中访问相关信息时性能显著下降。此外，随着输入上下文的增长，性能显著降低，即使是专门用于长上下文的模型也如此。我们的分析对语言模型如何利用输入上下文提供了更好的理解，并为未来的长上下文模型提供了新的评估协议。

Abstract

While recent language models have the ability to take long contexts as input, relatively little is known about how well the language models

language models long contexts performance relevant information input context

发现论文，激发创造

充分利用上下文的 LLM

通过信息密集型（IN2）训练，我们提出了一种完全数据驱动的解决方案来克服长上下文的缺失问题，该方法能够有效地利用长上下文中的信息，并且在现实世界的长上下文任务中显著提高性能。

Apr, 2024

长程语言模型是否实际上使用了长程上下文？

该研究分析了两个能够接受高达 8K Token 的长文本转换器语言模型，发现将长距离上下文提供给这些模型只会在少数 Token 上提高其预测能力（例如可以从远处文本中复制的 Token），对于句子级别的预测任务没有任何帮助；并且长范围上下文对文学小说的帮助最大。

Sep, 2021

如果只需检索，是否真的需要长文本背景？朝着真正困难的长文本 NLP 迈进

长文本任务的困难程度及其特性对于研究具有重要意义，需要使用更准确的词汇和描述来理解长文本任务的相似性和差异性。本文提出了两个衡量长文本任务困难程度的维度：信息扩散和任务范围，并通过对相关文献的调查和定位，阐明了其重要性和未来的研究方向。

Jun, 2024

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

关于大型语言模型中的位置偏差的总结化问题

对于大型语言模型，在抽象摘要任务中表现出色，但在多文档问答中存在输入上下文偏差，导致摘要内容分散，影响性能。本文通过实证研究揭示了这种偏差对于大型语言模型在不同摘要评估上的挑战。

Oct, 2023

不留下任何文件：扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试 Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

远程文本对哪些标记有益处？长上下文语言建模分析

研究论文探索了长文本语言模型中哪一种词汇能够更多地受益于长上下文，通过分析文本的概率变化，发现内容词汇和词汇的起始部分受益最大，上下文中的频繁模式也对预测产生显著影响，同时，模型的先验知识对预测尤为重要，尤其是对于罕见的词汇，语言模型在长上下文下变得更加自信，这种过度自信可能导致远程上下文信息中的词汇概率增加，希望该分析有助于更好地理解长文本语言建模并设计更可靠的长上下文模型。

Jun, 2024

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

中间不再迷失：通过增强注意力来提升大型语言模型在问答任务中的表现

通过 Attention Strengthening Multi-doc QA 任务，本文提出了一种增强长文本上大语言模型（LLMs）信息搜索以及反思能力的方法，实验证明在 Multi-doc QA 和其他基准测试中相比最先进模型，我们的模型在乱序设置下取得了 13.7％绝对增益，以及在段落检索任务中取得了 21.5％的改进。我们将我们的模型 Ziya-Reader 发布出来，以促进相关研究在社区中的开展。

Nov, 2023

位于中间：校准位置注意偏差以改进长上下文利用

长文本中，大语言模型存在失效过中间信息的问题，我们通过研究发现这一现象与其内在的注意力偏差有关，而通过中间定位机制可以解决这一问题，并在检索增强生成任务中表现出更好的性能。

Jun, 2024