NeedleBench: LLM能否在一百万上下文窗口中进行检索和推理？

Jul, 2024

NeedleBench: LLM能否在一百万上下文窗口中进行检索和推理？

NeedleBench: Can LLMs Do Retrieval and Reasoning in 1 Million Context Window?

Mo Li, Songyang Zhang, Yunxin Liu, Kai Chen

TL;DR评估大型语言模型在长文本情境下的能力，提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench，并通过 Ancestral Trace Challenge(ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明，当前的大型语言模型在实际长文本应用中仍有很大的改进空间。

Abstract

In evaluating the long-context capabilities of large language models (LLMs), identifying content relevant to a user's query from original long documents is a crucial prerequisite for any LLM to answer questions b

发现论文，激发创造

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入LongBench，对8个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

检索与长上下文大语言模型的融合

通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案，我们发现使用简单的检索增强在生成时可以实现与微调后的具有16K上下文窗口通过位置插值在长上下文任务上具有可比性能的4K上下文窗口的大型语言模型，而计算量较小。此外，我们证明检索可以显著提高大型语言模型的性能，而不受其扩展上下文窗口大小的限制。我们的最佳模型，检索增强的32K上下文窗口的LLaMA2-70B，在7个长上下文任务中，包括问答和基于查询的摘要，的平均得分方面优于GPT-3.5-turbo-16k和Davinci003。它还在生成速度上优于其非检索的LLaMA2-70B-32k基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。

Oct, 2023

LooGLE: 长文本语言模型是否理解长文本上下文?

基于LooGLE评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

无穷Bench：将长上下文评估扩展至10万标记

大语言模型处理长上下文是许多实际应用的关键，有必要评估和比较它们在处理100K+上下文时的能力。本文提出了第一个超过100K标记平均数据长度的大语言模型基准测试，对处理长上下文的现有模型进行了评价，并提出了对处理长上下文的大语言模型行为的三个有趣分析。

Feb, 2024

NovelQA: 一个长距离小说问答基准

使用英文小说构建的NovelQA评估长上下文具有深层文本理解能力的LLMs的表现，结果强调了LLMs在多次推理、注重细节的问题和超过100,000个标记的极长输入方面面临的挑战，强调了进一步改进LLMs以提高其长上下文理解和计算文学研究的必要性。

Mar, 2024

LongSkywork：用于大型语言模型中高效扩展上下文长度的训练方法

LongSkywork是一种具有长上下文处理能力的大型语言模型 (LLM)，通过在标准SFT阶段之后添加长上下文SFT阶段来增强长上下文处理能力，使用合成数据的方法显著提高了训练效率，并在各种长上下文基准测试中取得了出色的表现。

Jun, 2024

BABILong: 长篇背景下的LLMs极限测试和筛选

在这项研究中，我们介绍了BABILong基准测试，用于评估大型语言模型在处理长上下文时的效率。评估结果表明，目前流行的语言模型仅有效地利用上下文的10-20％，并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中，使用检索增强生成方法能够以最高60％的准确率回答单个事实问题，而与上下文长度无关。对于上下文扩展方法，采用循环记忆变压器可以处理长度达1100万个标记。BABILong基准测试可以扩展到任意长度，以支持评估具有更强能力的新模型，并为1百万个标记长度提供了分割。

Jun, 2024

检索与推理相遇：长文本理解的动态上下文编辑

通过动态上下文编辑的方式，我们引入了一种新的方法，将信息检索重新设想，使长文本上下文成为可塑的外部知识，并通过与最新的知识编辑技术相结合，与有关信息进行交互式收集和整合，从而使大型语言模型能够进行复杂的推理步骤，有效增强了推理能力。

Jun, 2024

不留下任何文件: 扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

多语言大海捞针：研究多语言大规模语言模型的长上下文行为

本研究解决了当前大规模语言模型在长多语言上下文处理能力不足的问题，提出了MultiLingual Needle-in-a-Haystack（MLNeedle）测试，评估模型在多语言环境下的信息检索能力。我们的研究发现，模型性能受语言和信息位置影响显著，并揭示了多语言环境中模型长上下文行为的重要见解，为未来的评估方案提供了指导。

Aug, 2024