Nov, 2023

基于大型语言模型的可控指令摘要生成与评估能力基准测试

TL;DR语言模型在标准的概括基准测试中已经取得了强大的性能,但在更复杂的概括任务设置上的表现却鲜少被研究。本研究基于指令可控的文本概括对语言模型进行评估,并使用多种评估协议和多个语言模型进行了自动评估。研究结果表明,指令可控的文本概括对于语言模型仍然是一个具有挑战性的任务,存在各种错误和性能差异。我们公开提供了我们的评估基准 IntruSum,以促进未来的相关研究。