评估问题生成需要更多参考文献

ACLMay, 2023

Evaluation of Question Generation Needs More References

Shinhyeok Oh, Hyojun Go, Hyeongdon Moon, Yunsung Lee, Myeongho Jeong...

TL;DR提出使用 GPT-3 等大型语言模型来进行问题生成并采用多个（伪）参考答案进行评估，以更全面地评估 QG 技术潜力的方法。实验结果表明，使用多个参考答案进行 QG 评估比使用单个参考答案更为有效，并且更能与人类评估相符合。

Abstract

question generation (QG) is the task of generating a valid and fluent question based on a given context and the target answer. According to various purposes, even given the same context, instructors can ask questions about different concepts, and even the same concept can be written in

question generation evaluation metrics multiple references gpt-3 paraphrasing

发现论文，激发创造

解决半监督问答中的语义漂泊问题

本研究提出了一种基于语义加强的奖励机制和基于 QA 的评估方法，用于解决问题生成中的语义漂移问题，并解决传统评价指标不足的问题，同时提出了两种合成 QA 对的方法，有效的用于半监督 QA 学习中。

Sep, 2019

基于参考的度量方法在问题生成中的自否定

该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Mar, 2024

段落级问题生成的生成式语言模型

通过引入 QG-Bench，这是一个多语种，多域基准，对现有的问答数据集进行转换，提出了鲁棒的 QG 基准和基于精细调整的生成语言模型，并对其进行了有效性和适应性分析。

Oct, 2022

利用 Transformer 语言模型简化段落级问题生成

Question generation is a natural language generation task that can be achieved with a single Transformer-based unidirectional language model, which outperforms QG baselines and produces high-quality questions that are relevant to their context paragraph and easy to answer, utilizing transfer learning without relying on auxiliary data.

May, 2020

基于 LM 的问答生成方法的实证比较

本文旨在建立三种不同的 QAG 方法的基线，利用序列到序列语言模型进行微调。实验证明，一种端到端的 QAG 模型，它在训练和推理时计算量都很轻，通常是稳健的，并且胜过其他复杂的方法。然而，这取决于底层生成模型的不同。最后，我们的分析表明，仅基于生成的问答对微调的 QA 模型可以与人类标注数据上训练的监督 QA 模型具有竞争力。

May, 2023

将马放在车前：一种从文本生成问题的生成器 - 评估框架

采用新颖的生成 - 评估框架，结合结构和语义优化自动生成问题，采用生成器和评估器模型，引入复制和覆盖机制，提出两个新的针对 QG 特定的奖励函数，综合利用 BLEU，GLEU 和 ROUGE-L 等评价指标，在 SQuAD 基准测试上，相较于最先进的系统，自动和人工评估都表现出更好的性能。

Aug, 2018

QGEval：一个用于问题生成评估的基准

我们提出了一个名为 QGEval 的多维度评估标准，用于对生成的问题和现有的自动评估方法进行评估，涵盖了流畅度、清晰度、简洁度、相关性、一致性、可回答性和回答一致性等七个维度。通过 QGEval 的分析，我们发现大多数问题生成模型在可回答性和回答一致性方面表现不尽人意，并且现有的评估指标无法很好地与人类评估结果相吻合。我们希望这项工作能促进问题生成技术和问题生成自动评估方法的发展。

Jun, 2024

通过摘要信息生成问题提高无监督问答

本文提出一种基于无监督学习的问句生成方法，使用自由可得的新闻标题数据通过句法分析、命名实体识别和语义角色标注启发式技术转换成合适的问题，然后与原始新闻文章一起训练一个端到端的神经问句生成模型；通过在多项数据集上的实验证明，该方法生成的人工智能数据集用于训练问答模型，其性能远超过基于无监督学习的问答模型的现有成果。

Sep, 2021

多项选择题生成：面向自动化评估框架的发展

本文提出一种多选题智能生成系统，利用预训练的语言模型，根据规定的性能指标，通过读取理解语料库来生成语法准确，具有可回答性、多样性和复杂性的问题及选项。

Sep, 2022

测验设计任务：帮助教师使用自动化题目生成器创建测验

本篇研究旨在利用标准化的 NLG 指标来检测 QGen 模型所带来的实际效果，并以教师自动生成阅读理解测试为例进行实际应用测试。虽然我们发现近期 QGen 取得了显著进展，但最佳模型仅得到了 10 名教师中的 68.4％同意接受的问题，同时也发现需要新的自动度量标准来指导 QGen 研究前进。

May, 2022