长文本生成基准：LongGenBench

Oct, 2024

LongGenBench: Long-context Generation Benchmark

Xiang Liu, Peijie Dong, Xuming Hu, Xiaowen Chu

TL;DR本文针对当前长文本评估的不足，提出了LongGenBench基准，以全面评估大语言模型在长文本生成中的能力。研究显示，多种模型在长文本生成中表现出显著性能下降，其中API访问的模型下降幅度为1.2%到47.1%不等，而不同模型系列的下降趋势各异。

Abstract

Current long-context benchmarks primarily focus on retrieval-based tests, requiring large language models (LLMs) to locate specific information within extensive input contexts, such as the needle-in-a-haystack (NIAH) be

发现论文，激发创造

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入LongBench，对8个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

检索与长上下文大语言模型的融合

通过研究使用两种最先进的预训练大型语言模型进行检索增强和长上下文窗口的解决方案，我们发现使用简单的检索增强在生成时可以实现与微调后的具有16K上下文窗口通过位置插值在长上下文任务上具有可比性能的4K上下文窗口的大型语言模型，而计算量较小。此外，我们证明检索可以显著提高大型语言模型的性能，而不受其扩展上下文窗口大小的限制。我们的最佳模型，检索增强的32K上下文窗口的LLaMA2-70B，在7个长上下文任务中，包括问答和基于查询的摘要，的平均得分方面优于GPT-3.5-turbo-16k和Davinci003。它还在生成速度上优于其非检索的LLaMA2-70B-32k基线。我们的研究为从业者提供了关于选择检索增强与扩展大型语言模型的长上下文的一般见解。

Oct, 2023

LongSkywork：用于大型语言模型中高效扩展上下文长度的训练方法

LongSkywork是一种具有长上下文处理能力的大型语言模型 (LLM)，通过在标准SFT阶段之后添加长上下文SFT阶段来增强长上下文处理能力，使用合成数据的方法显著提高了训练效率，并在各种长上下文基准测试中取得了出色的表现。

Jun, 2024

不留下任何文件: 扩展多文档问答中的长上下文语言模型基准测试

提出了一个新的长上下文基准测试Loong，通过扩展的多文档问题回答来实现与现实场景的对齐，来评估模型的长上下文建模能力。

Jun, 2024

NeedleBench: LLM能否在一百万上下文窗口中进行检索和推理？

评估大型语言模型在长文本情境下的能力，提出了一个用于评估双语长文本情境能力的逐渐增加难度的任务框架 NeedleBench，并通过 Ancestral Trace Challenge(ATC) 模拟了实际长文本任务中存在的复杂逻辑推理问题。结果表明，当前的大型语言模型在实际长文本应用中仍有很大的改进空间。

Jul, 2024

在长上下文语言模型时代捍卫RAG

本文针对传统检索增强生成（RAG）在长上下文语言模型（LLMs）面临的应用挑战，提出了一种新的有序保留的检索增强生成机制（OP-RAG）。研究表明，与长上下文LLMs相比，OP-RAG在长上下文问答任务中提升了答案质量，且在检索块数量适中的情况下表现最佳，显示出RAG在新环境中的潜在价值。

Sep, 2024

LongGenbench：长文本生成的基准测试在长上下文语言模型中的应用

本研究针对长上下文语言模型在长文本生成中的评估存在的不足，提出了新的长文本评估基准LongGenbench，旨在测试模型在生成长文本时融入特定事件的能力。研究发现，尽管这些模型在现有的"NIAH"基准测试中表现良好，但在LongGenbench测试中均未达到令人满意的水平，显示出它们在生成连贯长文本时存在显著问题。

Sep, 2024

LongGenBench：长上下文大语言模型的长篇生成基准测试

本研究解决了现有基准无法有效评估长篇文本生成质量的问题，提出了LongGenBench基准，专注于测试模型在生成长文时是否能准确包含特定事件。研究发现，尽管模型在传统长上下文基准上表现良好，但在LongGenBench上均未能达到令人满意的效果，尤其是在生成文本长度增加时性能明显下降。

Sep, 2024

HelloBench：评估大语言模型的长文本生成能力

本研究针对大语言模型（LLMs）在长文本生成能力方面的不足，提出了层次化长文本生成基准（HelloBench），用于综合评估LLMs在多个任务上的表现。研究发现，当前大多数LLMs生成的文本长度受限，并存在严重的重复和质量下降问题，同时提出的HelloEval评估方法提供了更高效且与人工评估高度相关的评估方式。

Sep, 2024

长文本生成基准：LongGenBench

当前的长文本基准主要专注于检索测试，缺乏对长文本生成能力的评估。为弥补这一空白，本研究提出了LongGenBench基准，支持自定义生成上下文长度，并要求大型语言模型生成连贯的长文本回答。研究发现，API访问和开源模型在长文本生成场景中的性能下降幅度可达47.1%，揭示了现有模型在处理长文本生成任务时的局限性。

Oct, 2024