使用语义角色标注评估文本的事实一致性

May, 2023

使用语义角色标注评估文本的事实一致性

Evaluating Factual Consistency of Texts with Semantic Role Labeling

Jing Fan, Dennis Aumiller, Michael Gertz

TL;DRSRLScore 是一种基于语义角色标注的自动文本评估度量，适用于文本摘要，能显示出稳定的泛化性能，且可适应于不同的领域。

Abstract

automated evaluation of text generation systems has recently seen increasing attention, particularly checking whether generated text stays truthful to input sources. Existing methods frequently rely on an evaluat

automated evaluation text generation systems srlscore semantic role labels factuality score

发现论文，激发创造

使用合成事实评估自动文本摘要

提出了一种新的自动文本摘要评估系统，该系统可以基于事实一致性、综合性和压缩率来测量任何文本摘要模型的质量，该评估系统是第一个基于真实性、信息覆盖和压缩率来衡量摘要模型总体质量的系统。

Apr, 2022

评估生成文本的事实准确性

该研究提出了一种基于模型的度量标准，用于评估生成的文本的事实准确性，并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究，论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。

May, 2019

使用文本蕴含反馈的强化学习实现事实一致性摘要

本文介绍一个基于文本蕴涵模型和强化学习的方法，用于优化提取式摘要的准确性和一致性，并在自动度量和人类评估上显示出较好的性能。

May, 2023

评估抽象文本摘要的事实一致性

该研究提出了一种弱监督、基于模型的方法来验证摘要的事实一致性，并鉴别来源文献和生成的摘要之间的冲突。

Oct, 2019

文本理解的显式上下文语义

本文的研究目的是让语义角色标注（SRL）任务通过指定动词谓词和其相应的语义角色来增强文本理解和推理，并针对深度学习模型，加入语义角色标注以获得更细粒度的语义。经过广泛的实验证明，所提出的语义学习能够在各项挑战性的自然语言理解任务中显著提高现有模型的性能，包括已经用于最新进展的预训练语言模型。

Sep, 2018

带自注意力的深度语义角色标注

本文提出了一种基于自我注意力机制的新型神经网络架构以实现语义角色标注，能够解决循环神经网络在处理结构信息和长距离依赖时面临的主要挑战，其在 CoNLL 2005 和 CoNLL 2012 语义角色标注竞赛中的 F1 得分分别超过了之前的最佳成绩。此外，我们的模型计算效率高，单个 Titan X GPU 可以处理 50000 个标记每秒。

Dec, 2017

使用迁移学习和基于 BERT 模型的方法对波斯语语义角色进行标注

本研究提出了一种端到端的 SRL 方法，它不仅消除了特征提取的需要，而且在实际情况下面对新样本的时候也表现出优于现有方法 16% (83.16) 的准确性改进。

Jun, 2023

通过反事实估计对文本摘要的实际一致性评估

提出一种基于反事实估算的新型度量标准，用于评估文本摘要的事实一致性，能够帮助改善与人类判断的相关性和使用的便利性。

Aug, 2021

LongDocFACTScore: 长文本摘要的事实评估

维护事实一致性是抽象文本摘要中的关键问题，传统的自动度量标准无法评估它，最近的研究致力于使用预训练语言模型开发改进的度量方法，但这些度量方法存在令人限制的标记限制，因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能，并提出了一种新的评估框架 LongDocFACTScore，该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。此外，我们展示了当在短文档数据集上与人工度量标准的事实一致性进行评估时，LongDocFACTScore 具有与最先进度量标准相当的性能。我们将我们的代码和注释数据公开提供。

Sep, 2023

PriMeSRL-Eval：语义角色标注系统评估的实用质量度量

本文提出了一种更严格的 SRL 评估指标 PriMeSRL，用于解决传统评估指标对谓词感知的忽略问题，实验结果表明使用该指标对现有 SOTA SRL 模型进行评估后，其质量下降并且排名发生改变，同时能够有效惩罚现有模型中的错误。

Oct, 2022