RepoQA：评估长上下文的代码理解

Jun, 2024

RepoQA: Evaluating Long Context Code Understanding

Jiawei Liu, Jia Le Tian, Vijay Daita, Yuxiang Wei, Yifeng Ding...

TL;DRRepoQA 是一个多语言且综合性的基准测试，评估了 LLMs 在长上下文代码理解上的能力，并展示了开源和专有模型之间仍存在着一小段差距，不同模型在不同编程语言上具有良好的表现，而没有注释的代码可能会更好地被模型理解。

Abstract

Recent advances have been improving the context windows of Large Language Models (LLMs). To quantify the real long-context capabilities of LLMs, evaluators such as the popular Needle in a Haystack have been developed to test LLMs over a large chunk of raw texts. While effective, curren

large language models context windows repoqa benchmark long-context code understanding programming languages

发现论文，激发创造

NeedleBench: LLM 能否在一百万上下文窗口中进行检索和推理？

评估大型语言模型在长文本情境下的能力，提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench，并通过 Ancestral Trace Challenge (ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明，当前的大型语言模型在实际长文本应用中仍有很大的改进空间。

Jul, 2024

不留下任何文件：扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试 Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

NovelQA: 一个长距离小说问答基准

使用英文小说构建的 NovelQA 评估长上下文具有深层文本理解能力的 LLMs 的表现，结果强调了 LLMs 在多次推理、注重细节的问题和超过 100,000 个标记的极长输入方面面临的挑战，强调了进一步改进 LLMs 以提高其长上下文理解和计算文学研究的必要性。

Mar, 2024

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

多模态大语言模型的长上下文能力基准测试

对多模态大语言模型进行了全面评估，介绍了一种用于长上下文能力评估的基准测试方法，包括多图像输入和图像拼接，以加大输入上下文长度，并开发了一个自动生成子图像级标签的协议。通过基于文本指令和图像内容描述，对 MLLMs 在长上下文图像输入中在一组图像中定位目标子图像的能力进行了压力测试。结果显示 GPT-4o 在长上下文情景中始终优于其他模型，但在负样本（即针未在抽屉中）中存在错误信息生成问题。此外，对 API 模型和开源模型进行了综合的长上下文评估，显示了相当大的性能差距。可通过提供的网址获取代码、数据和重现主要结果的指令。

Jun, 2024

长上下文语言模型是否能包含检索、RAG、SQL 等功能？

基于长上下文语言模型（LCLMs）的 LOFT 基准评估了 LCLMs 在上下文检索和推理方面的性能，发现它们能与最先进的检索系统和 RAG 系统媲美，但在像 SQL 一样需要组合推理的领域仍存在挑战，提示着需要继续研究随着上下文长度增长时的提示策略的影响。LOFT 为 LCLMs 提供了严格的测试平台，展示了随着模型能力的扩展，它们取代现有范式并解决新任务的潜力。

Jun, 2024

RULER: 你的长上下文语言模型真实的上下文大小是多少？

评估长上下文语言模型的新综合性基准 RULER，包括类别多跳追踪和聚合测试行为，显示出在上下文长度增加时所提供的任务和性能急剧下降

Apr, 2024

长跨度问答：通过并行评估自动生成问题和问答系统排序

通过使用大型语言模型的长期上下文能力，我们利用整本书籍创建合成阅读理解数据。我们提出了一个全面的自动化数据生成流程，包括问题生成、回答和模型评分。我们还发现将答案在模型之间进行相对比较，并使用 Bradley-Terry 模型进行排名，与绝对评分器相比，提供了一种更一致和区分性更强的评分机制。同时，我们展示了不同模型族的大型语言模型在评分方面的适度一致性。通过人工策划的 NarrativeQA 数据集验证了我们的方法，并且我们的评估器与人类判断达到了很好的一致性，甚至在数据集中发现了错误。使用我们的自动化评估方法，我们展示了与无上下文（参数化知识）和基于检索的方法相比，使用整本书籍作为上下文可以获得更优秀的阅读理解性能。

May, 2024

RES-Q: 对代码编辑大规模语言模型系统的评估

通过提出的基于自然语言指令的基准测试 RES-Q，对大型语言模型的指令遵循能力和代码仓库编辑系统进行了评估，发现模型能力存在差异，并提出了评估工具的需求。

Jun, 2024

L-Eval: 长上下文语言模型的标准化评估实施

我们提出了评估长上下文语言模型的标准化评估方法，开发了包含 411 个长文档和超过 2,000 个查询 - 回复对的 L-Eval，经过作者手工注释和检查。结果表明，开源模型在开放式任务和封闭式任务上都表现出令人印象深刻的性能，其中 LLaMA2 在 4k 上下文长度的开放式任务中获得最佳结果，而 ChatGLM2 在 8k 输入标记的封闭式任务中取得最佳结果。

Jul, 2023