Sep, 2024

LongGenBench:长上下文大语言模型的长篇生成基准测试

TL;DR本研究解决了现有基准无法有效评估长篇文本生成质量的问题,提出了LongGenBench基准,专注于测试模型在生成长文时是否能准确包含特定事件。研究发现,尽管模型在传统长上下文基准上表现良好,但在LongGenBench上均未能达到令人满意的效果,尤其是在生成文本长度增加时性能明显下降。