自然语言生成中多样性评估的评估

Apr, 2020

自然语言生成中多样性评估的评估

Evaluating the Evaluation of Diversity in Natural Language Generation

Guy Tevet, Jonathan Berant

TL;DR本文提出了一种通过建立多样性度量指标及其多样性参数之间关系的系统来评估自然语言生成（NLG）系统多样性的方法，并通过对人类和自动度量，解码参数调整等方面的实验展示了这个框架的实用性。

Abstract

Despite growing interest in natural language generation (NLG) models that produce diverse outputs, there is currently no principled method for evaluating the diversity of an NLG system. In this work, we propose a framework for evaluating →

natural language generation diversity metrics human evaluation decoding parameter nlg systems

发现论文，激发创造

在文本生成模型中联合测量多样性和质量

本文章提出一种同时评估生成文本方法质量和多样性的度量标准，通过逼近学习生成模型和真实数据分布的距离，并介绍了基于 n-gram 和 BERT 特征的度量方法，并且在 Oracle 训练模式下使用相应显式分布之间的距离。最后，使用现有和提出的度量标准对最流行和最新的文本生成模型进行评估，确定提出度量标准的优势。

Apr, 2019

对话生成语义多样性的测量和改进

本文提出了一种新的自动化评估指标，用于衡量生成响应的语义多样性，以及一种基于语义分布权重的学习方法，用于提高生成响应的语义多样性和连贯性。

Oct, 2022

自动诗歌生成中的多样性评估

评估自动生成诗歌的多样性，通过比较自动生成诗歌的结构、词汇、语义和风格等维度的分布与人类诗歌的分布，并考察不同模型类型和微调类型，发现当前的自动生成诗歌系统在多个维度上缺乏多样性，但风格条件和字符级建模明显增加了多样性。这些限制可用于更加多样化的未来诗歌生成模型。

Jun, 2024

文本多样性的标准化测量：工具和分数的比较分析

通过对英文文本的计算性高压缩算法和 $n$-gram 重叠同质性得分的测量，我们发现多种测量指标的组合（如压缩比、长 $n$-gram 的自我重复、Self-BLEU 和 BERTScore）足以报告多样性得分，并可应用于生成模型、调试指导型数据集和人工生产文本的分析。

Mar, 2024

为何我们需要新的自然语言生成评价指标

本文探究了 NLG 评估中常用的自动化评估方法的局限性，并提出了一种系统和数据独立的新型评价方法，包括先进的基于词汇和基于语法的度量。实验证明，这些方法并不能完全反映人的判断，且表现受到数据与系统的影响。但是，自动评估仍可支持系统的开发，发现系统表现不佳的问题。

Jul, 2017

将人类和统计评估统一为一体：自然语言生成

本文提出了一个统一的框架来评估 “人或机器生成” 的句子的错误率，并结合人类和统计学的评估来评估自然语言生成系统的多样性和质量，带来了更准确和全面的结果。

Apr, 2019

通过外部自然问题对知识库进行多样化问题生成

我们提出了一种新的多样性评估度量，用于评估每个实例的前 K 个生成问题的多样性，并确保它们与事实相关。同时，我们引入了一个双模型框架，通过两种选择策略将外部自然问题与生成模型相结合，以生成多样化的问题。实验结果表明，我们的方法生成了高度多样化的问题，并改善了问题回答任务的性能。

Sep, 2023

衡量协同生成图像的多样性

通过将神经网络编码的熵用于比较图像集合之间的多样性，我们提出了一种无需基准知识且易于计算的方法来评估协同创作系统生成的内容的多样性。通过比较两个预训练网络的选择与我们想要评估的多样性概念的关系，我们还讨论了这些度量在交互系统中的概念生成、模型评估以及计算创造力的更广泛应用。

Mar, 2024

自然语言生成系统所使用的评价指标调查

该论文介绍了目前自然语言生成领域的研究现状及其衡量标准的快速发展，说明了早期的启发式量化策略难以满足各种不同类型 NLG 任务的需求，因此需要发展更加准确的自动评估指标，并给出了该领域发展的建议和方向。

Aug, 2020

用于评估 NLG 评估指标的扰动检查清单

通过研究发现，基于单一标准（如总体质量）的自动评估指标与人工评分不能很好地关联，因此我们提出了 CheckLists 以更好地设计和评估自动评估指标，并通过模板针对特定标准对输出进行干扰，从而暴露指标的局限性，并有利于更好地设计、分析和评估这些指标。

Sep, 2021