Feb, 2024

在大语言模型时代的摘要一致性评估

TL;DR自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性(FC)指标受性能、效率和可解释性的限制。大型语言模型(LLM)的最新进展在文本评估方面表现出了显著的潜力,但其在总结中评估FC的效果尚未充分探索。本文首先通过引入TreatFact数据集来填补这一空白,该数据集包含由领域专家进行FC注释的LLM生成的临床文本摘要。此外,我们在新闻和临床领域对11个LLM进行了FC评估,并分析了模型大小、提示、预训练和微调数据的影响。研究发现,尽管专有模型在任务上占主导地位,但开源LLM仍然落后。然而,通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源LLM的性能。在TreatFact上的实验表明,先前的方法和基于LLM的评估器都无法捕捉到临床摘要中的实际不一致性,给FC评估提出了新的挑战。