以问答形式作为自动度量指标,评估摘要的内容质量
本文研究基于问答的摘要评估方法,要求自动决定 QA 模型的预测是否正确,即答案验证。通过比较词汇重叠和两种更复杂的文本比较方法,BERTScore 和 LERC,我们发现在某些场景下 LERC 的效果优于其他方法,但在其他场景下表现与词汇重叠相当。然而,我们的实验表明,改进的验证性能不一定能够转化为整体 QA-based 评估质量,在某些情况下,使用较差的验证方法(或根本不使用)具有与使用最佳验证方法相当的性能,这是由于数据集的特性所致。
Apr, 2022
本文提出了一种称为 QuestEval 的新方法,通过问题回答模型评估摘要是否包含源文档中的所有相关信息,从而在一致性、连贯性、流畅性和相关性等四个评估维度上,显著改善了与人类判断的相关性,而不需要任何先验参考。
Mar, 2021
本文针对文本摘要模型中的事实一致性问题展开研究,对比了基于蕴含和基于问答的度量方法,并且提出了一种优化的基于问答的度量方法 QAFactEval,相较之前的方法平均提高了 14% 的 SummaC 事实一致性基准测试性能,并且在最好的基于蕴含的方法之上表现更佳。此外,我们发现基于问答和基于蕴含的度量方法可以互补,结合起来可以提高摘要模型的性能
Dec, 2021
本文提出了一种基于问题解答的方法,通过将文本视为小型知识库进行大量提问,以精确地比较两个文本之间的内容差异,从而解决 NLP 系统评估中的一个重要问题。实验结果表明,该方法在分析大型文本语料库方面具有较高的准确性和可靠性。
Apr, 2017
该研究提出了一种基于自动问答的 faithfulness 评估度量方式(FEQA),并发现当前的神经抽象概括模型存在抽象度和忠实度的权衡关系。
May, 2020
使用多个参考答案的评估指标 SQuArE(基于句子级问题回答评估)对句子形式的 QA 系统进行评估,显示其优于以往的基准线,并获得与人工评注最高的相关性。
Sep, 2023
我们提出了一个新颖的法律摘要评估框架,利用 GPT-4 生成一系列覆盖参考摘要中主要观点和信息的问题 - 回答对。然后,根据参考摘要中的问题,利用 GPT-4 生成回答。最后,GPT-4 对参考摘要和生成摘要的回答进行评分,并检验了与人工评分之间的相关性,结果表明这种基于问题回答的 GPT-4 方法可以成为评估摘要质量的有用工具。
Sep, 2023
使用强化学习的抽象化概括方法已经被提出来克服传统极大似然估计的限制,提出了一些使用问题回答作为替代评价指标的模型,并在人工和自动评价指标上取得了较大的提升。
Sep, 2019
本研究提出新的评估指标 Answering Performance for Evaluation of Summaries (APES),结合阅读理解领域的进展,通过对中心实体进行手动创建问题的回答能力来评估文章摘要或新闻标题的质量,并提出一种端到端的神经抽象模型,以最大化 APES 和 ROUGE 得分。
Jun, 2019