多模态抽象摘要中事实性的评估与提高

EMNLPNov, 2022

多模态抽象摘要中事实性的评估与提高

Evaluating and Improving Factuality in Multimodal Abstractive Summarization

David Wan, Mohit Bansal

TL;DR我们提出了 CLIPBERTScore，一种结合 CLIPScore 和 BERTScore 的加权组合度量方法，用于多模式事实性摘要的评估，并在多个数据集上证明了其效果。

Abstract

Current metrics for evaluating factuality for abstractive document summarization have achieved high correlations with human judgment, but they do not account for the vision modality and thus are not adequate for vision-and-language summarization. We propose CLIPBERTScore, a simple weighted combination of →

abstractive document summarization multimodal summarization factuality metrics clipscore bertscore

发现论文，激发创造

多模式摘要的细粒度和可解释性事实评估

多模态概括旨在根据文本和图像生成简洁的摘要，但现有方法潜在地存在不实输出。为了评估多模态概括模型的真实性，我们提出了两个细粒度且可解释的评估框架（FALLACIOUS），用于不同的应用场景，即基于参考物的真实性评估框架和基于非参考物的真实性评估框架。值得注意的是，基于非参考物的真实性评估框架不需要基准真实性，因此具有更广泛的应用场景。为了评估提出框架的有效性，我们计算了其与其他度量标准之间的相关性。实验结果显示了我们提出方法的有效性。我们将通过 Github 发布我们的代码和数据集。

Feb, 2024

LongDocFACTScore: 长文本摘要的事实评估

维护事实一致性是抽象文本摘要中的关键问题，传统的自动度量标准无法评估它，最近的研究致力于使用预训练语言模型开发改进的度量方法，但这些度量方法存在令人限制的标记限制，因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能，并提出了一种新的评估框架 LongDocFACTScore，该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。此外，我们展示了当在短文档数据集上与人工度量标准的事实一致性进行评估时，LongDocFACTScore 具有与最先进度量标准相当的性能。我们将我们的代码和注释数据公开提供。

Sep, 2023

使用 FRANK 来理解抽象摘要中的事实性：一个事实度量的基准

该研究在 CNN/DM 和 XSum 数据集上使用类型学来收集各种摘要模型的生成摘要的人类注释，并使用它来识别各种类别的事实错误的比例，并基准事实度度量标准，显示它们与人类判断的相关性以及它们的特定优点和缺点

Apr, 2021

提高抽象摘要的事实性而不牺牲摘要质量

本文提出了一种名为 EFACTSUM 的候选摘要生成和排名技术，旨在在不牺牲摘要质量的前提下提高摘要的事实性。通过使用对比学习框架并结合两个度量，训练出的模型在 XSUM 和 CNN / DM 上相对于基本模型均有显著的事实性和相似性改进。

May, 2023

基于结构一致性的多模态事实验证: Factify 2 中的 INO

本文介绍了我们在 AAAI2023 的多模态事实验证（FACTIFY）挑战中的方法。我们提出了一个基于结构一致性的多模态事实验证方案来分类虚假新闻，通过随机森林分类器将特征进行合并并获得了 0.8079 的加权平均 F1 分数。

Mar, 2023

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

Just ClozE! 在抽象化摘要里评估事实一致性的快速简单方法

本研究提出了一种名为 ClozE 的新方法，采用基于掩码语言模型（MLM）实例化的填空模型来评估抽象化摘要与原始文本之间的事实一致性，并通过六个人工注释数据集和元评估基准 GO FIGURE 的实验表明 ClozE 相对于 QA_metrics 可以将评估时间减少近 96％，同时保持其可解释性和性能。

Oct, 2022

强大长文摘要化还有多远？

本文通过对长文档的人工精细注释对抽象大纲概述系统进行了评估，并显示了 ROUGE 在长文档摘要内容相关性评估方面的优越性，并提出了发展事实一致性度量的方向。最后，我们发布了我们注释的长文档数据集，希望能为更广泛的概述设置开发度量做出贡献。

Oct, 2022

通过反事实估计对文本摘要的实际一致性评估

提出一种基于反事实估算的新型度量标准，用于评估文本摘要的事实一致性，能够帮助改善与人类判断的相关性和使用的便利性。

Aug, 2021

通过对比奖励学习提高抽象摘要生成的准确性

通过对比学习框架和事实度指标的最新发展，本文提出了一种简单而有效的对比学习框架，实证研究表明该框架能够通过对比奖励学习从事实度指标的反馈中学习，从而在人类评估中生成更加符合事实的摘要，这表明学习和评估算法的进一步发展可直接提供更加符合事实的摘要。

Jul, 2023