多模态抽象摘要中事实性的评估与提高
多模态概括旨在根据文本和图像生成简洁的摘要,但现有方法潜在地存在不实输出。为了评估多模态概括模型的真实性,我们提出了两个细粒度且可解释的评估框架(FALLACIOUS),用于不同的应用场景,即基于参考物的真实性评估框架和基于非参考物的真实性评估框架。值得注意的是,基于非参考物的真实性评估框架不需要基准真实性,因此具有更广泛的应用场景。为了评估提出框架的有效性,我们计算了其与其他度量标准之间的相关性。实验结果显示了我们提出方法的有效性。我们将通过 Github 发布我们的代码和数据集。
Feb, 2024
维护事实一致性是抽象文本摘要中的关键问题,传统的自动度量标准无法评估它,最近的研究致力于使用预训练语言模型开发改进的度量方法,但这些度量方法存在令人限制的标记限制,因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能,并提出了一种新的评估框架 LongDocFACTScore,该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。此外,我们展示了当在短文档数据集上与人工度量标准的事实一致性进行评估时,LongDocFACTScore 具有与最先进度量标准相当的性能。我们将我们的代码和注释数据公开提供。
Sep, 2023
该研究在 CNN/DM 和 XSum 数据集上使用类型学来收集各种摘要模型的生成摘要的人类注释,并使用它来识别各种类别的事实错误的比例,并基准事实度度量标准,显示它们与人类判断的相关性以及它们的特定优点和缺点
Apr, 2021
本文提出了一种名为 EFACTSUM 的候选摘要生成和排名技术,旨在在不牺牲摘要质量的前提下提高摘要的事实性。通过使用对比学习框架并结合两个度量,训练出的模型在 XSUM 和 CNN / DM 上相对于基本模型均有显著的事实性和相似性改进。
May, 2023
本文介绍了我们在 AAAI2023 的多模态事实验证(FACTIFY)挑战中的方法。我们提出了一个基于结构一致性的多模态事实验证方案来分类虚假新闻,通过随机森林分类器将特征进行合并并获得了 0.8079 的加权平均 F1 分数。
Mar, 2023
本研究提出了一种名为 ClozE 的新方法,采用基于掩码语言模型(MLM)实例化的填空模型来评估抽象化摘要与原始文本之间的事实一致性,并通过六个人工注释数据集和元评估基准 GO FIGURE 的实验表明 ClozE 相对于 QA_metrics 可以将评估时间减少近 96%,同时保持其可解释性和性能。
Oct, 2022
本文通过对长文档的人工精细注释对抽象大纲概述系统进行了评估,并显示了 ROUGE 在长文档摘要内容相关性评估方面的优越性,并提出了发展事实一致性度量的方向。最后,我们发布了我们注释的长文档数据集,希望能为更广泛的概述设置开发度量做出贡献。
Oct, 2022
通过对比学习框架和事实度指标的最新发展,本文提出了一种简单而有效的对比学习框架,实证研究表明该框架能够通过对比奖励学习从事实度指标的反馈中学习,从而在人类评估中生成更加符合事实的摘要,这表明学习和评估算法的进一步发展可直接提供更加符合事实的摘要。
Jul, 2023