GO FIGURE: 摘要中事实性的元评估
该研究在 CNN/DM 和 XSum 数据集上使用类型学来收集各种摘要模型的生成摘要的人类注释,并使用它来识别各种类别的事实错误的比例,并基准事实度度量标准,显示它们与人类判断的相关性以及它们的特定优点和缺点
Apr, 2021
多模态概括旨在根据文本和图像生成简洁的摘要,但现有方法潜在地存在不实输出。为了评估多模态概括模型的真实性,我们提出了两个细粒度且可解释的评估框架(FALLACIOUS),用于不同的应用场景,即基于参考物的真实性评估框架和基于非参考物的真实性评估框架。值得注意的是,基于非参考物的真实性评估框架不需要基准真实性,因此具有更广泛的应用场景。为了评估提出框架的有效性,我们计算了其与其他度量标准之间的相关性。实验结果显示了我们提出方法的有效性。我们将通过 Github 发布我们的代码和数据集。
Feb, 2024
该研究提出了一种基于模型的度量标准,用于评估生成的文本的事实准确性,并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究,论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。
May, 2019
本文针对文本摘要模型中的事实一致性问题展开研究,对比了基于蕴含和基于问答的度量方法,并且提出了一种优化的基于问答的度量方法 QAFactEval,相较之前的方法平均提高了 14% 的 SummaC 事实一致性基准测试性能,并且在最好的基于蕴含的方法之上表现更佳。此外,我们发现基于问答和基于蕴含的度量方法可以互补,结合起来可以提高摘要模型的性能
Dec, 2021
最近在文本摘要方面的最新进展,尤其是随着大型语言模型(LLM)的出现,其表现出色。然而,存在一个明显的挑战,即大量自动生成的摘要存在事实不一致的问题,如幻觉。针对这个问题,出现了各种检验摘要一致性的方法。然而,这些新引入的度量指标都存在一些限制,包括解释性的缺乏、关注短文档摘要(例如新闻文章)以及计算上的不便,尤其是基于 LLM 的度量。为了解决这些缺点,我们提出了基于自然语言推理和主张提取(FENICE)的事实性评估摘要度量。FENICE 利用了源文件中的信息和从摘要中提取的一组原子事实(称为主张)之间的一个基于 NLI 的对齐。我们的度量在事实性评估的事实上设立了一个新的标杆,即默认标准 AGGREFACT。此外,我们通过进行长篇摘要的人工注释过程,将我们的评估扩展到了更具挑战性的环境中。
Mar, 2024
文章提出了一种新的事实评估方法 FactKB,该方法使用基于预先抽取的实体知识的语言模型,以达到跨领域的通用性并解决现有模型在新领域中存在的实体和关系错误问题。通过在两个领域内的新闻汇总测试数据和三个跨领域的科学文献数据上测试,FactKB 的事实性评估模型达到了最先进的性能水平,并表现出在摘要中检测错误实体和关系的能力显著提高,从而进一步证明其在领域通用性和鲁棒性方面的特点。
May, 2023
本文分析了以往的研究结果,发现 QA 基础框架在生成摘要时无法正确标定错误位置,并且由于 QG 模块生成的问题中存在非事实性错误,使问题进一步扩散。尽管进行人类辅助的问题生成也并不能轻易地解决这些问题。因此,实验结果表明,QA 框架在错误的局部化方面存在根本问题,不能仅仅通过加强 QA 和 QG 模型来解决。
Oct, 2022
维护事实一致性是抽象文本摘要中的关键问题,传统的自动度量标准无法评估它,最近的研究致力于使用预训练语言模型开发改进的度量方法,但这些度量方法存在令人限制的标记限制,因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能,并提出了一种新的评估框架 LongDocFACTScore,该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。此外,我们展示了当在短文档数据集上与人工度量标准的事实一致性进行评估时,LongDocFACTScore 具有与最先进度量标准相当的性能。我们将我们的代码和注释数据公开提供。
Sep, 2023