修复裂开的基础：生成文本评估实践中的障碍调查

Feb, 2022

修复裂开的基础：生成文本评估实践中的障碍调查

Repairing the Cracked Foundation: A Survey of Obstacles in Evaluation Practices for Generated Text

Sebastian Gehrmann, Elizabeth Clark, Thibault Sellam

TL;DR本文对自然语言生成中的模型评估进行了综述，分类，以及讨论该领域内研究人员针对这些问题所做的工作，提出了一个长期的 NLG 评估愿景，并建议研究人员采取具体措施来改善他们的评估过程。最终，从 66 篇近期 NLP 会议的 NLG 论文中分析了研究人员在遵循这些建议方面的情况，并确定了需要更彻底改变现状的领域。

Abstract

evaluation practices in natural language generation (NLG) have many known flaws, but improved evaluation approaches are rarely widely adopted. This issue has become more urgent, since neural →

natural language generation nlg models evaluation practices human and automatic model evaluations datasets in nlg

发现论文，激发创造

文本生成的评估：一项调查

该文章调查了近年来开发的自然语言生成（NLG）系统的评估方法。将 NLG 评估方法分为三类，讨论了每种类别取得的进展和仍然面临的挑战，重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特定的 NLG 评估示例，并提出了未来的研究方向。

Jun, 2020

拆解自然语言生成评估：评估实践、假设及其影响

通过对 18 位自然语言生成技术从业者的形成性半结构化访谈和 61 位从业者的调查研究，我们展示了影响自然语言生成技术评估的目标、社区实践、假设和约束，以及它们所体现的伦理考虑。

May, 2022

基于 LLM 的自然语言生成评估：现状与挑战

自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法，探讨了它们的优势和劣势，讨论了人机合作的 NLG 评估，并提出了该领域的几个开放问题和未来的研究方向。

Feb, 2024

数据驱动的自然语言生成：通向成功之路

本研究讨论了统计机器学习用于自然语言生成的商业应用的两个主要瓶颈：缺乏可靠的自动评估指标和高质量的领域内语料库。通过彻底分析当前的评估指标并提出需要新的更可靠的指标，我们解决了第一个问题。通过提出一种新的框架来开发和评估用于自然语言生成训练的高质量语料库，我们解决了第二个问题。

Jun, 2017

神经语言生成：公式化，方法与评估

本调查综述了自然语言生成的定义、应用、方法及评估，提供了一种神经网络生成模型的信息总览。

Jul, 2020

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

关于自然语言生成评估中自动度量标准进行更好验证研究

本文主要探讨自然语言生成领域中测评方法中的自动指标的应用和验证，提出了验证研究的最佳实践，并在 WMT'17 度量共享任务中进行了分析，同时也突出了未来的发展方向。

Jul, 2019

自然语言生成中的忠实度：分析、评估和优化方法的系统调查

本文系统综述了自然语言生成（NLG）的忠实度问题和相关评估方法和优化方法，并将不同任务的评估和优化方法组织在一个统一的分类中，以促进不同任务之间的比较和学习。

Mar, 2022

GPTEval：利用 GPT-4 进行更有效的人工智能对齐的自然语言生成评估

使用大型语言模型和一种具有连续思考特点的填充范式，提出了一种 NLG 质量评估框架，结合两种生成任务 —— 文本摘要和对话生成，使用 GPT-4 模型作为骨干模型，与以往方法相比性能更好。

Mar, 2023