多模式摘要的细粒度和可解释性事实评估

Feb, 2024

多模式摘要的细粒度和可解释性事实评估

Fine-grained and Explainable Factuality Evaluation for Multimodal Summarization

Liqiang Jing, Jingxuan Zuo, Yue Zhang

TL;DR多模态概括旨在根据文本和图像生成简洁的摘要，但现有方法潜在地存在不实输出。为了评估多模态概括模型的真实性，我们提出了两个细粒度且可解释的评估框架（FALLACIOUS），用于不同的应用场景，即基于参考物的真实性评估框架和基于非参考物的真实性评估框架。值得注意的是，基于非参考物的真实性评估框架不需要基准真实性，因此具有更广泛的应用场景。为了评估提出框架的有效性，我们计算了其与其他度量标准之间的相关性。实验结果显示了我们提出方法的有效性。我们将通过 Github 发布我们的代码和数据集。

Abstract

multimodal summarization aims to generate a concise summary based on the input text and image. However, the existing methods potentially suffer from unfactual output. To evaluate the factuality of multimodal summarizati

multimodal summarization factuality evaluation evaluation frameworks reference-based reference-free

发现论文，激发创造

多模态抽象摘要中事实性的评估与提高

我们提出了 CLIPBERTScore，一种结合 CLIPScore 和 BERTScore 的加权组合度量方法，用于多模式事实性摘要的评估，并在多个数据集上证明了其效果。

Nov, 2022

GO FIGURE: 摘要中事实性的元评估

本研究提出了一个基于事实准确性的机器文本自动生成质量评价框架 ——GO FIGURE，针对 10 种不同的事实准确性评价指标进行了评估，结果表明 QA 指标相较于标准指标具有更强的性能，但性能仍高度依赖问题的生成方式。

Oct, 2020

mFACE: 多语言事实一致性评估自动摘要

本文探讨了利用基于事实一致性评估模型的数据过滤和控制生成两种方法来改善跨语言自动摘要的结果，针对语义幻觉生成的问题在提高多语言自动摘要性能方面取得了较好的结果。

Dec, 2022

提高抽象摘要的事实性而不牺牲摘要质量

本文提出了一种名为 EFACTSUM 的候选摘要生成和排名技术，旨在在不牺牲摘要质量的前提下提高摘要的事实性。通过使用对比学习框架并结合两个度量，训练出的模型在 XSUM 和 CNN / DM 上相对于基本模型均有显著的事实性和相似性改进。

May, 2023

主题摘要中的细粒度事实注释及建模

研究表明，目前预训练的抽象摘要系统在性能上已经取得了可信的表现，但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据，用于训练模型来识别摘要中的事实错误，并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察，作者认为人工标注的细粒度数据提供了更有效的训练信号，并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记，从而使得训练更为准确的抽象摘要模型成为可能。

Apr, 2021

使用 FRANK 来理解抽象摘要中的事实性：一个事实度量的基准

该研究在 CNN/DM 和 XSum 数据集上使用类型学来收集各种摘要模型的生成摘要的人类注释，并使用它来识别各种类别的事实错误的比例，并基准事实度度量标准，显示它们与人类判断的相关性以及它们的特定优点和缺点

Apr, 2021

端到端多模态事实核查与解释生成：一组具有挑战性的数据集和模型

我们提出了一种端到端的多模态事实核查和解释生成方法，利用包括文章、图片、视频以及推特在内的大量网络资源来评估索赔的真实性，并生成一个有理化陈述来解释推理和裁定过程。我们构建了 Mocheg，这是一个大规模数据集，包括 21,184 个索赔和 58,523 条文本和图像形式的证据。我们在多模态证据检索、索赔验证和解释生成三个子任务上进行了几种最先进的神经网络结构的实验，以建立基准性能，并展示端到端多模态事实核查的最新性能仍然远远不够令人满意。据我们所知，我们是第一个建立端到端多模态事实核查和证明基准数据集和解决方案的研究团队。

May, 2022

通过反事实估计对文本摘要的实际一致性评估

提出一种基于反事实估算的新型度量标准，用于评估文本摘要的事实一致性，能够帮助改善与人类判断的相关性和使用的便利性。

Aug, 2021

FactKB：使用增强事实知识的语言模型进行可泛化事实性评估

文章提出了一种新的事实评估方法 FactKB，该方法使用基于预先抽取的实体知识的语言模型，以达到跨领域的通用性并解决现有模型在新领域中存在的实体和关系错误问题。通过在两个领域内的新闻汇总测试数据和三个跨领域的科学文献数据上测试，FactKB 的事实性评估模型达到了最先进的性能水平，并表现出在摘要中检测错误实体和关系的能力显著提高，从而进一步证明其在领域通用性和鲁棒性方面的特点。

May, 2023

2022 Logically 论文：多模式事实验证

本文描述了我们在 2022 AAAI 多模态事实验证（Factify）挑战上的参与系统。我们处理该挑战为多模态蕴含任务，作为多类分类，并提出并探索了两种基线方法，包括集成模型和多模态注意力网络。我们在此工作中测试了不同 SoTA 预训练变换器和视觉模型。最佳模型在排行榜中排名第一，平均 F - 度量值为 0.77。最后，我们强调了未来研究的任务和多模态数据集的挑战。

Dec, 2021