神经测试神谕生成评估指标评估

Oct, 2023

Assessing Evaluation Metrics for Neural Test Oracle Generation

Jiho Shin, Hadi Hemmati, Moshi Wei, Song Wang

TL;DR通过对现有的预言生成研究以及 ChatGPT 的再分析，研究探讨了它们在基于自然语言生成（NLG）和测试充分性度量方面的性能状况。结果发现 NLG 和测试充分性度量之间没有明显的相关性，通过定性分析找到了一些原因，并提供了更好评估软件测试生成中深度学习应用的指南。

Abstract

In this work, we revisit existing oracle generation studies plus ChatGPT to empirically investigate the current standing of their performance in both NLG-based and test adequacy metrics. Specifically, we train an

oracle generation nlg-based metrics test adequacy metrics qualitative analysis deep learning applications

发现论文，激发创造

ChatGPT 是一种好的 NLG 评估器吗？初步研究

研究通过在三个常用的 NLG 元评估数据集上实验，评估 ChatGPT 作为 NLG 指标的可靠性，结果表明其与黄金人类判断的相关性达到了同类指标的最高水平或具有竞争性。

Mar, 2023

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

评价问答生成系统的更优指标

本文研究了使用 $n$-gram 相识度量（例如 BLEU、NIST 等）来评估自然语言生成（NLG）系统的性能，尤其是其在从文档、知识图谱、图像等中自动生成问题的系统中的应用。研究发现，当前的自动评估指标并不总是能够客观地评估生成问题的可回答性。为了解决这个问题，本文提出了一个得分函数，并将其与现有的度量标准进行整合，这些度量标准与人类判断的相关性显著提高。

Aug, 2018

关于自然语言生成评估中自动度量标准进行更好验证研究

本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证，提出了验证研究的最佳实践，并在 WMT'17 度量共享任务中进行了分析，同时也突出了未来的发展方向。

Jul, 2019

用于评估 NLG 评估指标的扰动检查清单

通过研究发现，基于单一标准（如总体质量）的自动评估指标与人工评分不能很好地关联，因此我们提出了 CheckLists 以更好地设计和评估自动评估指标，并通过模板针对特定标准对输出进行干扰，从而暴露指标的局限性，并有利于更好地设计、分析和评估这些指标。

Sep, 2021

为何我们需要新的自然语言生成评价指标

本文探究了 NLG 评估中常用的自动化评估方法的局限性，并提出了一种系统和数据独立的新型评价方法，包括先进的基于词汇和基于语法的度量。实验证明，这些方法并不能完全反映人的判断，且表现受到数据与系统的影响。但是，自动评估仍可支持系统的开发，发现系统表现不佳的问题。

Jul, 2017

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023

数据驱动的自然语言生成：通向成功之路

本研究讨论了统计机器学习用于自然语言生成的商业应用的两个主要瓶颈：缺乏可靠的自动评估指标和高质量的领域内语料库。通过彻底分析当前的评估指标并提出需要新的更可靠的指标，我们解决了第一个问题。通过提出一种新的框架来开发和评估用于自然语言生成训练的高质量语料库，我们解决了第二个问题。

Jun, 2017

基于 LLM 的自然语言生成评估：现状与挑战

自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法，探讨了它们的优势和劣势，讨论了人机合作的 NLG 评估，并提出了该领域的几个开放问题和未来的研究方向。

Feb, 2024

测验设计任务：帮助教师使用自动化题目生成器创建测验

本篇研究旨在利用标准化的 NLG 指标来检测 QGen 模型所带来的实际效果，并以教师自动生成阅读理解测试为例进行实际应用测试。虽然我们发现近期 QGen 取得了显著进展，但最佳模型仅得到了 10 名教师中的 68.4％同意接受的问题，同时也发现需要新的自动度量标准来指导 QGen 研究前进。

May, 2022