Oct, 2024

长文本生成基准:LongGenBench

TL;DR本文针对当前长文本评估的不足,提出了LongGenBench基准,以全面评估大语言模型在长文本生成中的能力。研究显示,多种模型在长文本生成中表现出显著性能下降,其中API访问的模型下降幅度为1.2%到47.1%不等,而不同模型系列的下降趋势各异。