Feb, 2024

在大语言模型时代的摘要一致性评估

TL;DR自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性(FC)指标受性能、效率和可解释性的限制。大型语言模型(LLM)的最新进展在文本评估方面表现出了显著的潜力,但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白,该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外,我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估,并分析了模型大小、提示、预训练和微调数据的影响。研究发现,尽管专有模型在任务上占主导地位,但开源 LLM 仍然落后。然而,通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明,先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性,给 FC 评估提出了新的挑战。