长代码竞技场：长上下文代码模型的一组基准

Jun, 2024

长代码竞技场：长上下文代码模型的一组基准

Long Code Arena: a Set of Benchmarks for Long-Context Code Models

Egor Bogomolov, Aleksandra Eliseeva, Timur Galimzyanov, Evgeniy Glukhov, Anton Shapkin...

TL;DR通过引入 Long Code Arena 作为一套六个代码处理任务的基准，我们旨在填补超出单个上下文文件的代码处理基准的空白。这些任务涵盖了代码处理的不同方面：基于库的代码生成、CI 构建修复、项目级代码补全、提交消息生成、错误定位和模块摘要。

Abstract

Nowadays, the fields of code and natural language processing are evolving rapidly. In particular, models become better at processing long context windows - supported context sizes have increased by orders of magnitude over the last few years. However, there is a shortage of benchmarks

code processing long code arena benchmarks llms project-wide context

发现论文，激发创造

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

不留下任何文件：扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试 Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

Ada-LEval：使用可调整长度基准评估长上下文语言模型

我们引入了 Ada-LEval，这是一个适用于评估 LLM 长上下文理解能力的长度可适应性基准测试，包括两个具有挑战性的子集 TSort 和 BestAnswer，通过评估 4 个最先进的闭源 API 模型和 6 个开源模型，证明了目前 LLM 在超长上下文环境中的局限性。

Apr, 2024

RepoQA：评估长上下文的代码理解

RepoQA 是一个多语言且综合性的基准测试，评估了 LLMs 在长上下文代码理解上的能力，并展示了开源和专有模型之间仍存在着一小段差距，不同模型在不同编程语言上具有良好的表现，而没有注释的代码可能会更好地被模型理解。

Jun, 2024

GraphArena：基于图计算问题的大型语言模型评测

GraphArena 是一个基准测试工具，用于在以百万规模的真实世界图形为基础的各种场景中，通过图计算问题评估大型语言模型（LLMs）。该工具提供了 10 个计算任务，包括 4 个多项式时间问题和 6 个 NP 完全问题。评估结果显示，即使是表现最好的模型也无法很好地处理更大、更复杂的图形问题，并且存在幻觉问题。

Jun, 2024

KV 缓存压缩，我们必须拿什么作为交换？长上下文能力方法的全面基准测试

大语言模型的长上下文能力是其关键能力之一，本研究填补了现有方法的空白，并评估了 10 多种最新方法在长上下文任务领域的表现，揭示了许多以前未知的现象，为未来长上下文能力大语言模型的发展提供了洞见和工作平台。

Jul, 2024

长距竞技场：一个高效 Transformer 算法的基准测试

本论文提出了一个系统和统一的基准测试，名为 LRA，专门评估长上下文下的模型质量，其中系统地评估了十个成熟的长范围 Transformer 模型，为更好地理解高效 Transformer 模型铺平了道路，并提出了新的具有挑战性的任务。

Nov, 2020

无穷 Bench：将长上下文评估扩展至 10 万标记

大语言模型处理长上下文是许多实际应用的关键，有必要评估和比较它们在处理 100K + 上下文时的能力。本文提出了第一个超过 100K 标记平均数据长度的大语言模型基准测试，对处理长上下文的现有模型进行了评价，并提出了对处理长上下文的大语言模型行为的三个有趣分析。

Feb, 2024

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

马拉松：通过大型语言模型穿梭长文本领域的竞赛

本文提出了一个名为 Marathon 的新型长上下文评估基准，通过多项选择题形式，旨在快速、准确、客观地评估大型语言模型的长上下文理解能力和推理能力；同时，评估了几个最新和最流行的大型语言模型以及三种最近有效的长上下文优化方法，在我们的基准测试上展示了这些大型语言模型的长上下文推理和理解能力，并验证了这些优化方法的有效性。

Dec, 2023