$Q^{2}$：通过问题生成和问题回答评估基于知识的对话中的事实一致性

EMNLPApr, 2021

$Q^{2}$：通过问题生成和问题回答评估基于知识的对话中的事实一致性

$Q^{2}$: Evaluating Factual Consistency in Knowledge-Grounded Dialogues via Question Generation and Question Answering

Or Honovich, Leshem Choshen, Roee Aharoni, Ella Neeman, Idan Szpektor...

TL;DR本研究提出了一种用于对话中基于知识的生成模型的事实一致性评估度量，通过结合自动问题生成和问题回答，使用自然语言推理进行回答跨度比较。在 Wizard-of-Wikipedia 数据集上，我们得到了经过人工标注的对话系统输出数据集，并对 $Q^2$ 和其他度量标准进行了彻底的元评估，结果显示它与人类判断具有更高的相关性。

Abstract

Neural knowledge-grounded generative models for dialogue often produce content that is factually inconsistent with the knowledge they rely on, making them unreliable and limiting their applicability. Inspired by

knowledge-grounded generative models factual consistency dialogue evaluation metric question answering

发现论文，激发创造

QAFactEval：基于 QA 的摘要事实一致性评估的改进

本文针对文本摘要模型中的事实一致性问题展开研究，对比了基于蕴含和基于问答的度量方法，并且提出了一种优化的基于问答的度量方法 QAFactEval，相较之前的方法平均提高了 14% 的 SummaC 事实一致性基准测试性能，并且在最好的基于蕴含的方法之上表现更佳。此外，我们发现基于问答和基于蕴含的度量方法可以互补，结合起来可以提高摘要模型的性能

Dec, 2021

通过知识增强和对齐提升基于知识的对话系统的事实一致性

PLMs 基于知识驱动的对话系统存在生成与提供的知识源不一致的回应问题，本文通过知识增强和对齐两种方法有效提升了前馈网络（FFNs）在回应中表达事实知识的能力，验证了提升知识驱动对话系统的事实一致性的有效性。

Oct, 2023

询问和回答问题以评估摘要的事实一致性

该研究介绍了一种名为 QAGS 的自动评估协议，用于识别生成的摘要中的事实不一致性，并提供了一种自然的可解释性方法，这种方法是基于提出问题并对摘要和源回答问题的引导下实现的。实验结果表明，与现有的自动评估度量相比，QAGS 具有更高的相关性，并且是一种自动生成可用和事实一致的文本的有希望的工具。

Apr, 2020

重新评估事实一致性评估

TRUE 评测了多个评估度量的实际应用，并推荐大规模 NLI 及基于生成问答的方法作为模型和度量开发者的起点，以期推动更好的评估方法的进步。

Apr, 2022

基于问答的真实性框架在错误定位方面的缺陷

本文分析了以往的研究结果，发现 QA 基础框架在生成摘要时无法正确标定错误位置，并且由于 QG 模块生成的问题中存在非事实性错误，使问题进一步扩散。尽管进行人类辅助的问题生成也并不能轻易地解决这些问题。因此，实验结果表明，QA 框架在错误的局部化方面存在根本问题，不能仅仅通过加强 QA 和 QG 模型来解决。

Oct, 2022

通过问答提高摘要生成的事实一致性

本文提出了一种解决摘要生成模型中可能存在错误信息的方法，策略包括评估指标度量、新型学习算法、人工评估等，并通过大量实验证明该方法对提高信息事实准确性和提高摘要整体质量都非常有效。

May, 2021

GO FIGURE: 摘要中事实性的元评估

本研究提出了一个基于事实准确性的机器文本自动生成质量评价框架 ——GO FIGURE，针对 10 种不同的事实准确性评价指标进行了评估，结果表明 QA 指标相较于标准指标具有更强的性能，但性能仍高度依赖问题的生成方式。

Oct, 2020

(QA)$^2$: 带问题假设的问答系统

本文提出了（QA）$^2$（包含有问题上有问题的问题的问题回答）的开放域评估数据集，用于测试有问题上有问题的问题的回答系统。该论文研究问题上有问题的问题，旨在解决现有的 QA 系统不能正确回答该类问题的问题。

Dec, 2022

$G^2$: 通过地面图增强基于知识的对话

使用 Ground Graph 辅助 Transformer 模型提取语义结构以增强知识对话系统的回答生成效果，并在资源有限情况下展示出良好的推广能力。

Apr, 2022

通过往返一致性生成合成问答语料库

本研究介绍了一种通过结合问答生成和答案提取模型，过滤结果以确保往返一致性的方法生成合成问答语料库，并通过对生成数据的预训练在 SQuAD2 和 NQ 上达到了显著的改进，建立了新的最先进技术的状态。我们的合成数据生成模型，无论是问答生成还是答案提取，都可以通过在 SQuAD2 和 NQ 的可提取子集上微调公开可用的 BERT 模型来完全复制。我们还描述了一种更强大的变体，对于问答生成执行完整的序列到序列预训练，可以在 SQuAD2 上取得与人类表现相差小于 0.1％和 0.4％的完全匹配和 F1 值。

Jun, 2019