HelloBench：评估大语言模型的长文本生成能力

Sep, 2024

HelloBench：评估大语言模型的长文本生成能力

HelloBench: Evaluating Long Text Generation Capabilities of Large Language Models

Haoran Que, Feiyu Duan, Liqun He, Yutao Mou, Wangchunshu Zhou...

TL;DR本研究针对大语言模型（LLMs）在长文本生成能力方面的不足，提出了层次化长文本生成基准（HelloBench），用于综合评估LLMs在多个任务上的表现。研究发现，当前大多数LLMs生成的文本长度受限，并存在严重的重复和质量下降问题，同时提出的HelloEval评估方法提供了更高效且与人工评估高度相关的评估方式。

Abstract

In recent years, Large Language Models (LLMs) have demonstrated remarkable capabilities in various tasks (e.g., long-context understanding), and many benchmarks have been proposed. However, we observe that Long Text Gen

发现论文，激发创造

使用语料提取优化长文本生成的指令调整

使用 LongForm 数据集进行指导调整机制可以提高语言模型的泛化能力，该数据集通过 LLMs 生成一组多样的人类撰写的文档和相应的指导语句，支持长文本生成，并在文本生成、多语言指令识别等任务上表现出色。

Apr, 2023

LongBench: 一个用于长篇上下文理解的双语多任务基准

通过引入LongBench，对8个大型语言模型进行全面评估，我们发现商业模型（GPT-3.5-Turbo-16k）优于其他开源模型，但在更长的语境下仍存在困难；在较长序列上进行的缩放位置嵌入和微调，在长语境理解方面带来了实质性的改进；检索等上下文压缩技术对于长上下文能力较弱的模型带来了改进，但性能仍落后于具有强大长上下文理解能力的模型。

Aug, 2023

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用LLM进行NLG评估的全面概述，包括组织现有基于LLM的评估指标的一致性分类法、批判性评估不同的LLM方法以及比较其在评估NLG输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的NLG评估技术。

Jan, 2024

Ada-LEval：使用可调整长度基准评估长上下文语言模型

我们引入了Ada-LEval，这是一个适用于评估LLM长上下文理解能力的长度可适应性基准测试，包括两个具有挑战性的子集TSort和BestAnswer，通过评估4个最先进的闭源API模型和6个开源模型，证明了目前LLM在超长上下文环境中的局限性。

Apr, 2024

大型语言模型在自然语言生成任务中的系统评估

研究论文从自然语言生成任务的角度全面评估了ChatGPT、ChatGLM、基于T5的模型、基于LLaMA的模型和基于Pythia的模型等众所周知且表现良好的大型语言模型的性能，并提出了一种常见的评估设置，其中包括输入模板和后处理策略，通过与详细分析相结合的自动结果来报告研究结果。

May, 2024

LongLaMP：个性化长文本生成基准

长文本生成任务中的个性化生成和评估框架研究及其实用性优化

Jun, 2024

编织金线：语言模型中长篇生成的基准测试

本文解决了当前长上下文语言模型在长篇文本生成评估中的不足，提出了新的基准测试“编织金线”，以测试模型在生成长文本时识别具体事件的能力。研究发现，尽管现有模型在“针在稻草堆”基准测试中表现良好，但在“编织金线”基准测试中效果不佳，这表明它们在生成符合指令的一致长文本方面存在显著问题，尤其是在生成文本长度增加时性能显著下降。

Sep, 2024

撰写金线：长文本生成在长上下文语言模型中的基准测试

本研究旨在解决现有基准评估无法有效衡量长文本生成质量的不足，通过引入“撰写金线”基准评估模型在生成长文本时的事件识别能力。研究发现，尽管长上下文语言模型在传统基准上表现良好，但在新基准下表现不佳，揭示了其在生成符合指令的连贯长文本方面的障碍，尤其是生成文本长度增加时，性能显著下降。

Sep, 2024

LongGenbench：长文本生成的基准测试在长上下文语言模型中的应用

本研究针对长上下文语言模型在长文本生成中的评估存在的不足，提出了新的长文本评估基准LongGenbench，旨在测试模型在生成长文本时融入特定事件的能力。研究发现，尽管这些模型在现有的"NIAH"基准测试中表现良好，但在LongGenbench测试中均未达到令人满意的水平，显示出它们在生成连贯长文本时存在显著问题。

Sep, 2024

LongGenBench：长上下文大语言模型的长篇生成基准测试

本研究解决了现有基准无法有效评估长篇文本生成质量的问题，提出了LongGenBench基准，专注于测试模型在生成长文时是否能准确包含特定事件。研究发现，尽管模型在传统长上下文基准上表现良好，但在LongGenBench上均未能达到令人满意的效果，尤其是在生成文本长度增加时性能明显下降。

Sep, 2024