评估生成文本的事实准确性

May, 2019

Assessing The Factual Accuracy of Generated Text

Ben Goodrich, Vinay Rao, Mohammad Saleh, Peter J Liu

TL;DR该研究提出了一种基于模型的度量标准，用于评估生成的文本的事实准确性，并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究，论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。

Abstract

We propose a model-based metric to estimate the factual accuracy of generated text that is complementary to typical scoring schemes like ROUGE (Recall-Oriented Understudy for Gisting Evaluation) and BLEU (Bilingu

model-based metric factual accuracy text generation wikipedia fact extraction models

发现论文，激发创造

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

FactKB：使用增强事实知识的语言模型进行可泛化事实性评估

文章提出了一种新的事实评估方法 FactKB，该方法使用基于预先抽取的实体知识的语言模型，以达到跨领域的通用性并解决现有模型在新领域中存在的实体和关系错误问题。通过在两个领域内的新闻汇总测试数据和三个跨领域的科学文献数据上测试，FactKB 的事实性评估模型达到了最先进的性能水平，并表现出在摘要中检测错误实体和关系的能力显著提高，从而进一步证明其在领域通用性和鲁棒性方面的特点。

May, 2023

重新评估事实一致性评估

TRUE 评测了多个评估度量的实际应用，并推荐大规模 NLI 及基于生成问答的方法作为模型和度量开发者的起点，以期推动更好的评估方法的进步。

Apr, 2022

GO FIGURE: 摘要中事实性的元评估

本研究提出了一个基于事实准确性的机器文本自动生成质量评价框架 ——GO FIGURE，针对 10 种不同的事实准确性评价指标进行了评估，结果表明 QA 指标相较于标准指标具有更强的性能，但性能仍高度依赖问题的生成方式。

Oct, 2020

主题摘要中的细粒度事实注释及建模

研究表明，目前预训练的抽象摘要系统在性能上已经取得了可信的表现，但其输出的摘要常常与输入不符合并存在事实错误。作者探讨了综合和人工标注数据，用于训练模型来识别摘要中的事实错误，并研究了单词、依赖和句子级别的事实性。通过对多个数据集的实验观察，作者认为人工标注的细粒度数据提供了更有效的训练信号，并证明了他们的最佳事实性检测模型能够识别训练数据中的非事实标记，从而使得训练更为准确的抽象摘要模型成为可能。

Apr, 2021

通过反事实估计对文本摘要的实际一致性评估

提出一种基于反事实估算的新型度量标准，用于评估文本摘要的事实一致性，能够帮助改善与人类判断的相关性和使用的便利性。

Aug, 2021

LongDocFACTScore: 长文本摘要的事实评估

维护事实一致性是抽象文本摘要中的关键问题，传统的自动度量标准无法评估它，最近的研究致力于使用预训练语言模型开发改进的度量方法，但这些度量方法存在令人限制的标记限制，因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能，并提出了一种新的评估框架 LongDocFACTScore，该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。此外，我们展示了当在短文档数据集上与人工度量标准的事实一致性进行评估时，LongDocFACTScore 具有与最先进度量标准相当的性能。我们将我们的代码和注释数据公开提供。

Sep, 2023

抽象文本摘要的多因素校正

本论文提出了一种名为 Span-Fact 的技术，通过单一或多重遮盖策略，利用问题解答模型从系统生成的摘要中选择语义上一致且保留形式结构的实体，从而提高了系统生成的摘要的事实一致性和质量。

Oct, 2020

使用自然语言推理评估数据生成文本的语义准确性

本论文提出了一种使用预训练的自然语言推理神经模型来衡量数据到文本生成语义准确性的新度量方法，并利用该方法来检验两个方向之间的文本蕴含，从而揭示输出中的遗漏或虚构。实验证明，该指标能够在鉴定系统输出的错误方面达到高的精度。

Nov, 2020

使用 FRANK 来理解抽象摘要中的事实性：一个事实度量的基准

该研究在 CNN/DM 和 XSum 数据集上使用类型学来收集各种摘要模型的生成摘要的人类注释，并使用它来识别各种类别的事实错误的比例，并基准事实度度量标准，显示它们与人类判断的相关性以及它们的特定优点和缺点

Apr, 2021