使用语义角色标注评估文本的事实一致性
提出了一种新的自动文本摘要评估系统,该系统可以基于事实一致性、综合性和压缩率来测量任何文本摘要模型的质量,该评估系统是第一个基于真实性、信息覆盖和压缩率来衡量摘要模型总体质量的系统。
Apr, 2022
该研究提出了一种基于模型的度量标准,用于评估生成的文本的事实准确性,并引入了一个新的基于维基百科和维基数据的大规模数据集来训练关系分类器和端到端事实提取模型。通过在维基百科文本摘要任务中分析多个模型的准确性并进行人类评估研究,论文展示了这些方法相对于 ROUGE 和其他无模型变量的方法的功效。
May, 2019
本文的研究目的是让语义角色标注(SRL)任务通过指定动词谓词和其相应的语义角色来增强文本理解和推理,并针对深度学习模型,加入语义角色标注以获得更细粒度的语义。经过广泛的实验证明,所提出的语义学习能够在各项挑战性的自然语言理解任务中显著提高现有模型的性能,包括已经用于最新进展的预训练语言模型。
Sep, 2018
本文提出了一种基于自我注意力机制的新型神经网络架构以实现语义角色标注,能够解决循环神经网络在处理结构信息和长距离依赖时面临的主要挑战,其在 CoNLL 2005 和 CoNLL 2012 语义角色标注竞赛中的 F1 得分分别超过了之前的最佳成绩。此外,我们的模型计算效率高,单个 Titan X GPU 可以处理 50000 个标记每秒。
Dec, 2017
本研究提出了一种端到端的 SRL 方法,它不仅消除了特征提取的需要,而且在实际情况下面对新样本的时候也表现出优于现有方法 16% (83.16) 的准确性改进。
Jun, 2023
维护事实一致性是抽象文本摘要中的关键问题,传统的自动度量标准无法评估它,最近的研究致力于使用预训练语言模型开发改进的度量方法,但这些度量方法存在令人限制的标记限制,因此不适用于长文档摘要评估。本研究评估了自动度量标准在长文档摘要中评估事实一致性的效能,并提出了一种新的评估框架 LongDocFACTScore,该框架可以扩展到任意长度的文档。LongDocFACTScore 在评估长文档摘要数据集的事实度与人工测量结果的相关性方面优于现有的最先进度量标准。此外,我们展示了当在短文档数据集上与人工度量标准的事实一致性进行评估时,LongDocFACTScore 具有与最先进度量标准相当的性能。我们将我们的代码和注释数据公开提供。
Sep, 2023
本文提出了一种更严格的 SRL 评估指标 PriMeSRL,用于解决传统评估指标对谓词感知的忽略问题,实验结果表明使用该指标对现有 SOTA SRL 模型进行评估后,其质量下降并且排名发生改变,同时能够有效惩罚现有模型中的错误。
Oct, 2022