FABLES:评估长篇书籍摘要的忠实性与内容选择
本研究针对长文本自动摘要难以进行人工评估的问题,通过对 162 篇长文本摘要论文的调研,提出了一种针对长文本自动摘要信度评估的人工评估指南 LongEval,其中包括如何实现准确的信度得分,减少评估者的工作量,以及人工与自动化对齐等方面的考虑,并通过在两个不同领域的长文本摘要数据集上进行注释研究,发现在精细度方面,如句子的级别,能够显著降低评估者之间的差异。
Jan, 2023
分析了神经文本生成模型在抽象文档摘要生成方面的局限性,并发现这些模型非常容易产生虚假内容。人类评估显示,预训练模型生成的摘要不仅在原始度量标准(即 ROUGE)方面更好,而且在生成忠实和真实摘要方面也更好,文本蕴含度量更好地相关于忠实度,有可能成为自动评估度量标准以及训练和解码标准的前景。
May, 2020
本研究探索采用大型语言模型 (DLM) 来评估摘要的事实一致性,并通过对 GPT 模型系列和 Flan-T5 等不同类型的 DLM 进行分析,以及对多种提示方法进行研究,最终证明了直接针对 DLM 的提示方法在各项测试中均优于当前最先进的摘要事实性系统。
May, 2023
提出一种新指标 FFLM,结合基于概率变化的方法评估生成模型的忠实度,相比于强基准模型 ChatGPT 拥有更少的参数,并在不一致性检测和忠实度评分方面表现出竞争性和优越性的改进。
Oct, 2023
本文提出了一个新的大语言模型(LLMs)准确性检验基准,称之为 FIB(Factual Inconsistency Benchmark),并在 23 个 1B 到 176B 参数的不同模型家族中评估了其实用性。结果表明,现有的 LLMs 通常将更高的分数分配给事实上一致的总结,但如果不一致的总结在文档中出现,那么 LLMs 将会赋予这些不一致的总结比事实上一致的总结更高的分数。
Nov, 2022
自动产生的摘要与源文件的实际不一致可能导致错误信息或存在风险。现有的实际一致性(FC)指标受性能、效率和可解释性的限制。大型语言模型(LLM)的最新进展在文本评估方面表现出了显著的潜力,但其在总结中评估 FC 的效果尚未充分探索。本文首先通过引入 TreatFact 数据集来填补这一空白,该数据集包含由领域专家进行 FC 注释的 LLM 生成的临床文本摘要。此外,我们在新闻和临床领域对 11 个 LLM 进行了 FC 评估,并分析了模型大小、提示、预训练和微调数据的影响。研究发现,尽管专有模型在任务上占主导地位,但开源 LLM 仍然落后。然而,通过增加模型大小、扩展预训练数据和开发精心策划的微调数据,有潜力提升开源 LLM 的性能。在 TreatFact 上的实验表明,先前的方法和基于 LLM 的评估器都无法捕捉到临床摘要中的实际不一致性,给 FC 评估提出了新的挑战。
Feb, 2024
本文提出系统研究 faithfulness metrics 在对话摘要任务上的应用,发现对于绝大部分度量方法而言,在对话数据上的表现与人类判断的相关性较差。为了提高 faithfulness metrics 在对话摘要任务上的性能,我们还采用了 fine-tuning on in-domain dataset 和 unlikelihood training on negative samples 等技术。最后提出 T0-Score 度量方法,其在多个领域上均能稳定提高评价性能。
Nov, 2022
通过两种工作流程 (层级合并、递增更新) 实现基于 LLM 的书籍摘要器的连贯性研究,发现 LLM 会出现八种常见的连贯性错误,并提出了一个自动评估指标 BooookScore,与人工标注结果一致,可用于系统评估其他关键参数的影响,同时节省了人工评估成本。
Oct, 2023
本研究基于 HIV 病人的病例史,对临床文本摘要的可信度指标进行评估,从医学专业人员和患者两方面来获得实际应用价值。评估表明,大多数指标在提供与源文本相关的最小信息上,可显著提高其与人类判断的相关性。
Mar, 2023