Sep, 2024

HelloBench:评估大语言模型的长文本生成能力

TL;DR本研究针对大语言模型(LLMs)在长文本生成能力方面的不足,提出了层次化长文本生成基准(HelloBench),用于综合评估LLMs在多个任务上的表现。研究发现,当前大多数LLMs生成的文本长度受限,并存在严重的重复和质量下降问题,同时提出的HelloEval评估方法提供了更高效且与人工评估高度相关的评估方式。