Counting-Stars: 评估长上下文大语言模型的简单、高效和合理策略

Mar, 2024

Counting-Stars: 评估长上下文大语言模型的简单、高效和合理策略

Counting-Stars: A Simple, Efficient, and Reasonable Strategy for Evaluating Long-Context Large Language Models

Mingyang Song, Mao Zheng, Xuan Luo

TL;DR近期的研究工作集中在开发具有强大的长上下文能力的大型语言模型（LLMs），由于缺乏适当的评估策略，对于领先的 LLMs（例如 ChatGPT 和 KimiChat）的长上下文处理能力和性能了解甚少。为了填补这一空白，我们提出了一种简单、高效、合理的策略来评估长上下文 LLMs，作为一项新的基准，命名为 Counting-Stars。Counting-Stars 的设计要求 LLMs 完全理解和捕捉长上下文中的长依赖，并能够收集贯穿整个上下文的多个证据之间的相互依赖来完成任务。基于 Counting-Stars，我们进行了实验证明，GPT-4 Turbo 和 Kimi Chat 在长度为 4K 到 128K 的长上下文中达到了显著的性能。我们进一步提出了两种有关 LLMs 处理长上下文行为的有趣分析。

Abstract

While recent research endeavors have concentrated on developing Large Language Models (LLMs) with robust long-context capabilities, due to the lack of appropriate evaluation strategies, relatively little is known

large language models long-context capabilities evaluation strategies benchmark long dependencies

发现论文，激发创造

L-Eval: 长上下文语言模型的标准化评估实施

我们提出了评估长上下文语言模型的标准化评估方法，开发了包含 411 个长文档和超过 2,000 个查询 - 回复对的 L-Eval，经过作者手工注释和检查。结果表明，开源模型在开放式任务和封闭式任务上都表现出令人印象深刻的性能，其中 LLaMA2 在 4k 上下文长度的开放式任务中获得最佳结果，而 ChatGLM2 在 8k 输入标记的封闭式任务中取得最佳结果。

Jul, 2023

LooGLE: 长文本语言模型是否理解长文本上下文？

基于 LooGLE 评估模型的表现，研究显示商业模型在短依赖任务上胜过开源模型，同时也揭示了长依赖任务的困难，并指出在短问答任务中检索式技术有着明显的好处，而扩展上下文窗口长度的策略对于长上下文理解的影响有限。

Nov, 2023

使用大型语言模型评估聊天的三种方法

本文通过三种不同的方法，基于大型语言模型（LLMs）对于 ChatGPT 响应的逐轮质量进行预测，并使用动态少量样本来改善基准，并分析了其他两种方法的性能并提出未来研究的改进。研究表明，Llama 2 模型正在缩小 ChatGPT 和开源 LLMs 之间的性能差距，但发现 Llama 2 模型不能像 ChatGPT 那样从少量样本中受益。

Aug, 2023

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入 LongBench，对 8 个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

长上下文语言模型对长上下文学习困难

在极限标签分类领域中，本研究介绍了一种专门的基准测试（LIConBench），重点关注长上下文学习。我们评估了 13 个长上下文大语言模型在我们的基准测试上，发现在 20K 的令牌长度下，大部分大语言模型表现相对良好且受益于利用长上下文窗口，然而，在上下文窗口超过 20K 后，除了 GPT-4 之外，大部分大语言模型表现出明显下降。这表明现有大语言模型在处理和理解长的上下文丰富序列时存在显著差距。我们的研究揭示了当前大语言模型在长上下文理解和推理方面仍存在挑战，我们相信 LIConBench 可以作为未来长上下文大语言模型的更切实可行的评估。

Apr, 2024

基础模型的长文本推理能力优化

我们介绍了一系列支持高达 32,768 个令牌的有效上下文窗口的长上下文 LLMs。通过从 Llama 2 开始的持续预训练，我们的模型系列是在更长的训练序列和上采样长文本的数据集上构建的。我们在语言模型、合成上下文探索任务以及广泛的研究基准上进行了广泛的评估。在研究基准上，我们的模型在大多数常规任务上均取得了一致的改进，并在长上下文任务上相对于 Llama 2 取得了显著的提升。值得注意的是，通过一种耗时效率高且不需要人工注释长指导数据的指令调整过程，70B 变体已经超过了 gpt-3.5-turbo-16k 在一套长上下文任务中的整体性能。除了这些结果，我们对我们方法的各个组成部分进行了深入分析。我们深入研究了 Llama 的位置编码，并讨论了它在建模长依赖性方面的局限性。我们还研究了预训练过程中各种设计选择的影响，包括数据混合和序列长度的训练课程 - 我们的消融实验表明，在预训练数据集中有大量长文本并不是达到强大性能的关键，我们从经验上验证了长上下文持续预训练相对于从头开始的长序列预训练更高效且同样有效。

Sep, 2023

不留下任何文件：扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试 Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

LongAgent: 通过多智能体协作将语言模型扩展至 128k 上下文

通过多智能体协作的方法，我们提出了一种名为 LongAgent 的方法，将大型语言模型（例如 LLaMA）的上下文窗口扩展到 128K，并在长文本处理方面展示了相对于 GPT-4 的潜在优势。LongAgent 中，一个领导者负责理解用户意图并指导团队成员从文档中获取信息。通过开发一种成员间的信息共享机制来解决因幻觉引起的回应冲突，我们的实验结果表明 LongAgent 在长文本处理方面提供了一种有希望的选择。使用 LLaMA-7B 实例化的智能体团队相较于 GPT-4 在 128k 长文本检索、多跳问题回答等任务中取得了显著的改进。

Feb, 2024

MileBench: 在长上下文中评测多语言大型语言模型

该研究旨在通过引入 MileBench 基准来系统评估多模态大型语言模型（MLLMs）在长上下文和多图像任务中的适应能力，并发现开源 MLLMs 在长上下文情境中面临着挑战，尤其在涉及多图像的情景下。

Apr, 2024

BABILong: 长篇背景下的 LLMs 极限测试和筛选

在这项研究中，我们介绍了 BABILong 基准测试，用于评估大型语言模型在处理长上下文时的效率。评估结果表明，目前流行的语言模型仅有效地利用上下文的 10-20％，并且在处理复杂的推理任务时性能急剧下降。在上下文推理的替代方法中，使用检索增强生成方法能够以最高 60％的准确率回答单个事实问题，而与上下文长度无关。对于上下文扩展方法，采用循环记忆变压器可以处理长度达 1100 万个标记。BABILong 基准测试可以扩展到任意长度，以支持评估具有更强能力的新模型，并为 1 百万个标记长度提供了分割。

Jun, 2024