基于参考的度量方法在问题生成中的自否定

Mar, 2024

基于参考的度量方法在问题生成中的自否定

Reference-based Metrics Disprove Themselves in Question Generation

Bang Nguyen, Mengxia Yu, Yun Huang, Meng Jiang

TL;DR该研究在使用 BLEU 和 BERTScore 等基于参考文献的指标评估问题生成（QG）时发现，使用人工编写的参考文献不能保证参考文献指标的有效性。作者提出了一种基于自由参考文献的多维度标准的度量方法，通过利用大型语言模型来评估问题的自然性、可回答性和复杂性，该度量方法不受单个参考问题的句法或语义限制，也不需要多样化的参考文献集合。实验证明，该度量方法能够准确区分高质量问题和有缺陷的问题，并与人类判断达到最先进的一致性。

Abstract

reference-based metrics such as BLEU and BERTScore are widely used to evaluate question generation (QG). In this study, on qg benchmarks s

question generation reference-based metrics qg benchmarks reference-free metric large language models

发现论文，激发创造

在自然语言生成系统评估中，引用是否有必要？何时何地？

基于广泛的实验，本研究全面评估了参考无关度量与参考度量在各种自然语言生成任务中的性能，并表明参考无关度量与人类判断有较高相关性，并对语言质量的不足更敏感，然而其有效性因任务而异，受候选文本质量影响。因此，在应用参考无关度量到新任务时，特别是在输入形式不常见或答案空间高度变化时，有必要评估其性能。本研究为自动度量的适当应用以及度量选择对评估性能的影响提供了洞察。

Mar, 2024

关于释义生成的评估度量

本文重新审视了用于复述评估的自动评估度量，并得出两个违背常规智慧的发现：(1) 无参考度量比基于参考文本的度量具有更好的性能。 (2) 人类注释与使用最多的度量不太相符。通过额外的实验证明和深入的分析探讨了上述发现背后的原因。基于实验和分析，我们提出了 ParaScore，这是一种新的复述生成评估指标。它具有基于参考的和无参考的指标的优点，并明确地建模词汇差异。实验结果证明，ParaScore 显着优于现有的指标。

Feb, 2022

生成文本的无参考评估的局限性

我们的研究表明：参考文本的自由度量在评估生成文本方面存在固有的偏见和限制，因此建议将其作为分析和理解模型行为的诊断工具，而不是评估模型任务表现的指标。

Oct, 2022

RQUGE：一种用于评估通过回答问题生成问题的无参考度量

本文提出了一种新的基于可回答性而非语言 / 语义相似性的问题评估度量标准 ——RQUGE，并使用合成数据进行微调以进一步提高 QA 模型的性能。

Nov, 2022

评估问题生成需要更多参考文献

提出使用 GPT-3 等大型语言模型来进行问题生成并采用多个（伪）参考答案进行评估，以更全面地评估 QG 技术潜力的方法。实验结果表明，使用多个参考答案进行 QG 评估比使用单个参考答案更为有效，并且更能与人类评估相符合。

May, 2023

自动问答可回答性评估

本研究提出了一种基于提示的回答可行性度量（PMAN），它是一种新颖的自动评估度量，用于评估生成的问题是否可由参考答案回答，以解决复杂任务如问题生成所面临的评估问题。通过广泛的实验，证明了其评估结果可靠且与人类评估一致。我们还将该度量应用于评估问题生成模型的性能，结果表明该度量与传统度量相辅相成。我们基于 ChatGPT 的问题生成模型达到了最先进的性能。

Sep, 2023

BLEU 或许有罪但参考文献并不无辜

本研究通过比较不同收集参考文献的方法，找到了提高机器翻译自动测量与人工评估相关性的关键。同时，提出了基于语言学家的改写任务，解决了传统参考文献的单调性问题，它不仅能够提高 WMT 2019 英德翻译的相关性，而且对于后翻译和 APE 增强的 MT 输出，同样具有良好的表现。

Apr, 2020

QAScore -- 一种无监督无参考问题生成评估度量

提出了一种新的参考无需评估指标 QAScore，通过计算语言模型能否正确生成答案中掩码单词的概率来评估问题，发现它比传统的基于单词重叠的 BLEU，ROUGE 和预训练模型基于 BERTScore 等指标更能与人类判断相关。

Oct, 2022

机器翻译无参考同行评估评估

通过使用大型多语言模型的概率作为参考度量标准，本文尝试了各种修改以推进无参考评估，并且分析了一些潜在的弱点，结果表明这种方法是出乎意料的稳健，可能在广泛领域和系统质量方面提供合理的性能。

Apr, 2021

质量估计之穷人版：在没有参考文本的情况下预测基于参考文本的机器翻译度量

本文提出了一种基于预训练模型的机器翻译质量评估方法，通过度量预测模型评分来进行质量评估并为人工评估模型提供预训练；实验结果表明，该方法在无需参考标准情况下依然可以上可接受的精度，但也存在一定的局限性。

Jan, 2023