拆解自然语言生成评估：评估实践、假设及其影响

ACLMay, 2022

拆解自然语言生成评估：评估实践、假设及其影响

Deconstructing NLG Evaluation: Evaluation Practices, Assumptions, and Their Implications

Kaitlyn Zhou, Su Lin Blodgett, Adam Trischler, Hal Daumé III, Kaheer Suleman...

TL;DR通过对 18 位自然语言生成技术从业者的形成性半结构化访谈和 61 位从业者的调查研究，我们展示了影响自然语言生成技术评估的目标、社区实践、假设和约束，以及它们所体现的伦理考虑。

Abstract

There are many ways to express similar things in text, which makes evaluating natural language generation (NLG) systems difficult. Compounding this difficulty is the need to assess varying quality criteria depend

natural language generation evaluation quality criteria nlg practitioners ethical considerations

发现论文，激发创造

修复裂开的基础：生成文本评估实践中的障碍调查

本文对自然语言生成中的模型评估进行了综述，分类，以及讨论该领域内研究人员针对这些问题所做的工作，提出了一个长期的 NLG 评估愿景，并建议研究人员采取具体措施来改善他们的评估过程。最终，从 66 篇近期 NLP 会议的 NLG 论文中分析了研究人员在遵循这些建议方面的情况，并确定了需要更彻底改变现状的领域。

Feb, 2022

基于 LLM 的自然语言生成评估：现状与挑战

自然语言生成（NLG）的评估是人工智能中一个重要但具有挑战性的问题。本文调查了基于大型语言模型的 NLG 评估方法，探讨了它们的优势和劣势，讨论了人机合作的 NLG 评估，并提出了该领域的几个开放问题和未来的研究方向。

Feb, 2024

文本生成的评估：一项调查

该文章调查了近年来开发的自然语言生成（NLG）系统的评估方法。将 NLG 评估方法分为三类，讨论了每种类别取得的进展和仍然面临的挑战，重点关注最近提出的 NLG 任务和神经 NLG 模型的评估。最后提出了自动文本摘要和长文本生成的两个任务特定的 NLG 评估示例，并提出了未来的研究方向。

Jun, 2020

评估 NLG 系统：简介

该论文简要介绍了自然语言生成领域中的评估，解释了关键术语和区别，并提出了一个奖项，以激励研究人员更多地关注他们系统输出的评估方法。

Mar, 2023

自然语言生成任务的实用生产策略探索

提出一种自然语言生成系统设计的概念框架，以实现复杂的交际目标，并通过现代统计方法提供针对目标、成本和效用的具体建议。同时，倡导开发可以通过类人的方式推理目标、成本和效用的 NLG 系统。

Oct, 2022

利用大型语言模型进行自然语言生成评估：综述

自然语言生成（NLG）评估中引入大型语言模型（LLM）为评估生成内容质量提供了新的途径，本文提供了对利用 LLM 进行 NLG 评估的全面概述，包括组织现有基于 LLM 的评估指标的一致性分类法、批判性评估不同的 LLM 方法以及比较其在评估 NLG 输出中的优势和局限性，讨论未解决的挑战，并推动更公平、更先进的 NLG 评估技术。

Jan, 2024

自然语言生成的不确定性：从理论到应用

最近强大的语言模型为自然语言生成（NLG）提供了进步，使其不仅可以执行传统任务如摘要或翻译，还可以作为各种应用的自然语言接口。本文首先提出了表示不确定性所需的基本理论、框架和词汇，并从语言学的角度确定了 NLG 中主要的不确定性来源，并提出了一个比流行的整体 / 种类二分法更具信息量和忠实度的二维分类系统。最后，我们从理论转向应用，强调利用不确定性进行解码、可控生成、自我评估、选择性回答、主动学习等的令人兴奋的研究方向。

Jul, 2023

数字欺骗视角下自然语言生成进展综述

本文主要探讨自然语言生成器 (NLG) 领域包括方法、评估、任务等方面的相关研究，并特别关注了 NLG 被恶意利用的潜在危险，以及存在的偏见风险。

Aug, 2022

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

数据驱动的自然语言生成：通向成功之路

本研究讨论了统计机器学习用于自然语言生成的商业应用的两个主要瓶颈：缺乏可靠的自动评估指标和高质量的领域内语料库。通过彻底分析当前的评估指标并提出需要新的更可靠的指标，我们解决了第一个问题。通过提出一种新的框架来开发和评估用于自然语言生成训练的高质量语料库，我们解决了第二个问题。

Jun, 2017