QGEval：一个用于问题生成评估的基准

Jun, 2024

QGEval：一个用于问题生成评估的基准

QGEval: A Benchmark for Question Generation Evaluation

Weiping Fu, Bifan Wei, Jianxiang Hu, Zhongmin Cai, Jun Liu

TL;DR我们提出了一个名为 QGEval 的多维度评估标准，用于对生成的问题和现有的自动评估方法进行评估，涵盖了流畅度、清晰度、简洁度、相关性、一致性、可回答性和回答一致性等七个维度。通过 QGEval 的分析，我们发现大多数问题生成模型在可回答性和回答一致性方面表现不尽人意，并且现有的评估指标无法很好地与人类评估结果相吻合。我们希望这项工作能促进问题生成技术和问题生成自动评估方法的发展。

Abstract

Automatically generated questions often suffer from problems such as unclear expression or factual inaccuracies, requiring a reliable and comprehensive evaluation of their quality. Human evaluation is frequently used in the field of question generation (QG) and is one of the most accur

question generation evaluation criteria qgeval dimensions qg technologies

发现论文，激发创造

自动问答可回答性评估

本研究提出了一种基于提示的回答可行性度量（PMAN），它是一种新颖的自动评估度量，用于评估生成的问题是否可由参考答案回答，以解决复杂任务如问题生成所面临的评估问题。通过广泛的实验，证明了其评估结果可靠且与人类评估一致。我们还将该度量应用于评估问题生成模型的性能，结果表明该度量与传统度量相辅相成。我们基于 ChatGPT 的问题生成模型达到了最先进的性能。

Sep, 2023

评估问题生成需要更多参考文献

提出使用 GPT-3 等大型语言模型来进行问题生成并采用多个（伪）参考答案进行评估，以更全面地评估 QG 技术潜力的方法。实验结果表明，使用多个参考答案进行 QG 评估比使用单个参考答案更为有效，并且更能与人类评估相符合。

May, 2023

将马放在车前：一种从文本生成问题的生成器 - 评估框架

采用新颖的生成 - 评估框架，结合结构和语义优化自动生成问题，采用生成器和评估器模型，引入复制和覆盖机制，提出两个新的针对 QG 特定的奖励函数，综合利用 BLEU，GLEU 和 ROUGE-L 等评价指标，在 SQuAD 基准测试上，相较于最先进的系统，自动和人工评估都表现出更好的性能。

Aug, 2018

段落级问题生成的生成式语言模型

通过引入 QG-Bench，这是一个多语种，多域基准，对现有的问答数据集进行转换，提出了鲁棒的 QG 基准和基于精细调整的生成语言模型，并对其进行了有效性和适应性分析。

Oct, 2022

评价问答生成系统的更优指标

本文研究了使用 $n$-gram 相识度量（例如 BLEU、NIST 等）来评估自然语言生成（NLG）系统的性能，尤其是其在从文档、知识图谱、图像等中自动生成问题的系统中的应用。研究发现，当前的自动评估指标并不总是能够客观地评估生成问题的可回答性。为了解决这个问题，本文提出了一个得分函数，并将其与现有的度量标准进行整合，这些度量标准与人类判断的相关性显著提高。

Aug, 2018

QAScore -- 一种无监督无参考问题生成评估度量

提出了一种新的参考无需评估指标 QAScore，通过计算语言模型能否正确生成答案中掩码单词的概率来评估问题，发现它比传统的基于单词重叠的 BLEU，ROUGE 和预训练模型基于 BERTScore 等指标更能与人类判断相关。

Oct, 2022

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024

评估开放式问答系统评估

本研究针对认知智能领域中的 Open Question Answering 任务进行评估，提出了 QA Evaluation 任务和相应的数据集，在考虑到自动评估方法的局限性的基础上，采用人工评估来更准确地衡量基于人工智能的答案的准确性和 F1 分数，并研究表现高度相关且更可靠的评估方法以及当前方法的缺陷，最终生成的数据集有望促进更有效的自动评估工具的发展。

May, 2023

面向文本生成的统一多维度评估器

提出了一种基于多维度布尔问题回答任务的统一评价器 UniEval，通过指导模型回答不同问题的方式，从多维度评估自然语言生成的质量，并且通过中间学习阶段，UniEval 可以整合来自多个相关任务的外部知识，以实现更全面的评估。实验表明，UniEval 比现有的评估指标与人类判断的相关性更高，可在多个任务中实现强的零次学习能力。

Oct, 2022

QuestEval: 基于事实的评估对于摘要很重要

本文提出了一种称为 QuestEval 的新方法，通过问题回答模型评估摘要是否包含源文档中的所有相关信息，从而在一致性、连贯性、流畅性和相关性等四个评估维度上，显著改善了与人类判断的相关性，而不需要任何先验参考。

Mar, 2021