自动问答可回答性评估

Sep, 2023

Automatic Answerability Evaluation for Question Generation

Zifan Wang, Kotaro Funakoshi, Manabu Okumura

TL;DR本研究提出了一种基于提示的回答可行性度量（PMAN），它是一种新颖的自动评估度量，用于评估生成的问题是否可由参考答案回答，以解决复杂任务如问题生成所面临的评估问题。通过广泛的实验，证明了其评估结果可靠且与人类评估一致。我们还将该度量应用于评估问题生成模型的性能，结果表明该度量与传统度量相辅相成。我们基于 ChatGPT 的问题生成模型达到了最先进的性能。

Abstract

Conventional automatic evaluation metrics, such as BLEU and ROUGE, developed for natural language generation (NLG) tasks, are based on measuring the n-gram overlap between the generated and reference text. These simple metrics may be insufficient for more complex tasks, such as question gener

automatic evaluation metric question generation answerability pman qg models

发现论文，激发创造

评价问答生成系统的更优指标

本文研究了使用 $n$-gram 相识度量（例如 BLEU、NIST 等）来评估自然语言生成（NLG）系统的性能，尤其是其在从文档、知识图谱、图像等中自动生成问题的系统中的应用。研究发现，当前的自动评估指标并不总是能够客观地评估生成问题的可回答性。为了解决这个问题，本文提出了一个得分函数，并将其与现有的度量标准进行整合，这些度量标准与人类判断的相关性显著提高。

Aug, 2018

QGEval：一个用于问题生成评估的基准

我们提出了一个名为 QGEval 的多维度评估标准，用于对生成的问题和现有的自动评估方法进行评估，涵盖了流畅度、清晰度、简洁度、相关性、一致性、可回答性和回答一致性等七个维度。通过 QGEval 的分析，我们发现大多数问题生成模型在可回答性和回答一致性方面表现不尽人意，并且现有的评估指标无法很好地与人类评估结果相吻合。我们希望这项工作能促进问题生成技术和问题生成自动评估方法的发展。

Jun, 2024

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024

测验设计任务：帮助教师使用自动化题目生成器创建测验

本篇研究旨在利用标准化的 NLG 指标来检测 QGen 模型所带来的实际效果，并以教师自动生成阅读理解测试为例进行实际应用测试。虽然我们发现近期 QGen 取得了显著进展，但最佳模型仅得到了 10 名教师中的 68.4％同意接受的问题，同时也发现需要新的自动度量标准来指导 QGen 研究前进。

May, 2022

RQUGE：一种用于评估通过回答问题生成问题的无参考度量

本文提出了一种新的基于可回答性而非语言 / 语义相似性的问题评估度量标准 ——RQUGE，并使用合成数据进行微调以进一步提高 QA 模型的性能。

Nov, 2022

评估问题生成需要更多参考文献

提出使用 GPT-3 等大型语言模型来进行问题生成并采用多个（伪）参考答案进行评估，以更全面地评估 QG 技术潜力的方法。实验结果表明，使用多个参考答案进行 QG 评估比使用单个参考答案更为有效，并且更能与人类评估相符合。

May, 2023

以问答形式作为自动度量指标，评估摘要的内容质量

提出一种基于问答的评估度量标准（QAEval）来评估摘要的内容质量，通过分析 QAEval，证明 QA-based methods 相较于传统的基于文本内部匹配的度量标准（如 ROUGE）更加准确。

Oct, 2020

使用关键词权重的生成式问答度量 KPQA

本研究提出了一种新的度量模型 KPQA-metric，通过关键词预测为不同的令牌分配不同的权重评估生成的回答，用于评估生成式问答系统的正确性，并通过人类评估数据集表明，KPQA-metric 与现有度量模型具有更高的相关性。

May, 2020

自然语言解释评估的自动度量研究

研究透明度如何为机器人和人工智能提供自然语言解释，并评估自然语言生成方法的相关度量来生成这些解释，发现基于嵌入的自动自然语言生成评估方法具有更高的相关性，这对于可解释的人工智能和透明的机器人和自主系统具有重要意义。

Mar, 2021

RoMe: 一种稳健的自然语言生成度量标准

本文提出了一种有效的自动评估度量 RoMe，包括多个自然语言生成核心方面，如语言能力、句法和语义变化，通过基于自我监督神经网络的语义相似性等语言特征，结合树编辑距离和语法可接受性来评估生成句子的整体质量，并对最先进的方法和 RoMe 进行了广泛的鲁棒性分析。实证结果表明，在评估多个 NLG 任务生成的句子方面，RoMe 与人类判断的相关性比最先进的度量更强。

Mar, 2022